מהימנות במחקר – סיכום

הגדרה: מהימנות– מדד הוא מהימן, ככל שהוא משקף את הערכים האמיתיים שהוא אמור למדוד.

כלומר, ככל שיש בו פחות טעויות מדידה. מהימנות מושלמת מתקבלת כאשר ערכי המשתנה המתקבלים במדידה זהים לערכיו האמיתיים (ללא טעויות). איננו יכולים למדוד ישירות את הערכיים האמיתיים, אך אני יכולים לאמוד אותם ע"פ הערכים שמתקבלים במדידה – אלו מכונים הערכים הנצפים.

גישה זו למדידה מפרקת כל משתנה נצפה לשני משתנים משתנה אמיתי + משתנה טעות.

משתנה טעות+ משתנה אמיתי =משתנה נצפה.

הפער בין המשתנה האמיתי והנצפה, הוא משתנה הטעות.

נוסחה זו חלה על כל אחד מערכי המשתנה– כל ערך נצפה מורכב מהערך האמיתי ומערך טעות.

אם כל פעם שעולים על המשקל רואים ערך אחר משמע הערכים הנצפים לא משקפים את המשקל האמיתי,אם כן היו כולם זהים. כל אחד כלל בתוכו טעות בגודל שונה, בנוסף לערך האמיתי.

יש 2 טעויות אפשריות–

טעות קבועה– טעות קבועה היא משתנה ששונותו אפס– טעות המוסיפה/מפחיתה ערך טעות קבוע לכל ערכי המשתנה. מאזניים לא מכוילים יטו את משקל כל הנשקלים בדיוק באותה מידה. נניח שהמחוג מצביע על 5 במקום על אפס, כשאין איש על המאזניים, כל מי שיעלה עליו יקבל תוספת של 5 ק"ג למשקלו. תוספת זו היא משתנה הטעות- מכיוון שכל ערכי משתנה הטעות זהים- שונותו היא אפס.
טעות מקרית– טעות מקרית היא משתנה ששונותו שונה מאפס. כל אדם שיעלה על המשקל יקבל ערך טעות שונה.

טעות מקרית מאופיינת ב:

שונות שונה מאפס.
תוחלת משתנה הטעות שווה לאפס– יש טעויות חיוביות וטעויות שליליות, וכולן מתקזזות לאפס (כמו סטיית תקן).
המתאם בין משתנה הטעות למשתנה האמיתי הוא אפס– אי אפשר לנבא את גודל הטעות עפ"י המשתנה האמיתי. אין כל קשר בין משקלו האמיתי של האדם, לבין גודל הטעות במשקל הנצפה.

חשוב: טעות מקרית היא בלתי נמנעת, בעוד על טעות קבועה ניתן להתגבר בקלות (כמו לאפס את המשקל).

מכיוון שאי אפשר למנוע את הטעות המקרית, יש לפתח כלים למדידתה, לבדיקת השפעתה.

מהימנות מתייחסת לטעות מקרית בלבד.

מדידה מדויקת (מהימנה) מתבטאת בטעות מקרית קטנה– או במילים אחרות: במתאם גבוה בין ערכי המשתנה הנצפה לערכי המשתנה האמיתי.

עכשיו הספר מתחיל להסתבך עם מלא חישובים ונוסחאות, שנראים לי מיותרים ולמעשה מתארים את מה שלמדנו בסטטיסטיקה. לכן אסכם רק את התוצאות התיאורטיות:
כיוון שתוחלת הטעות הטעותית =0, תוחלת הערכים הנצפים שווה לתוחלת הערכים האמיתיים.
E(X_t) = E(X_o).
שונות המשתנה הנצפה שווה לשונות המשתנה האמיתי+ שונות משתנה הטעות. מכאן, שהשונות הנצפית היא תמיד גדולה יותר מהשונות האמיתית. (אלא אם כן שונות הטעויות =0).
מקדם המהימנות r_tt – 3 הגדרות בהן ניתן להשתמש:
א. היחס בין השונות האמיתית לשונות הנצפית. זהו התיאור הסטטיסטי של מהימנות, והוא נע בין 1 ל-0. כאשר אין שום טעות מדידה, שונות הטעויות שווה לאפס, והשונות הנצפית שווה לשונות האמיתית. לכן היחס שווה 1. כאשר אין שום שונות אמיתית, וכל השונות הנצפית היא שונות טעותית- מקדם המהימנות הוא אפס.אם מתקבל r_tt של 0.87 נאמר ש 87% מהשונות מקורה בשונות האמיתית ו-13% בשונות טעויות.
ב. אחד פחות היחס שבין השונות הטעותית לשונות הנצפית.
ג. ריבוע המתאם בין המשתנה האמיתי למשתנה הנצפה (כלומר המתאם הוא שורש המהימנות)
- שורש המהימנות של משתנה מסוים מהווה חסם עליון למתאם בינו לבין משתנה נצפה אחר. אם אנו מחפשים מתאם בין משתנה נצפה X למשתנה נצפה Y שורש המהימנות הנמוך מבין השניים יהיה אומדן למתאם הגבוה ביותר האפשרי בין השניים.

אין דרך ישירה להעריך את גודל השונות האמיתית, ואת חלקה בשונות הנצפית- ולכן נצטרך לעשות זאת בדרכים עקיפות-

הגדרות אופרציונליות (סוגי מהימנות)

גורמים שונים יכולים לגרום לטעות במשתנה הנצפה-

כאמור, המשתנה הנצפה מכיל גם את הערך האמיתי, אולם גורמים כגון- שאלות לא ברורות, מצב רוח, מזג אוויר וכו', שעלולים להוסיף ערך מוטעה. נהוג לחלק את גורמי הטעות ל-3 קבוצות:
1. תנאים חיצוניים הקשורים במועד ההעברה- רעש, צפיפות וכו'.
2. מאפייני הנבדק הקשורים במועד ההעברה- מצב רוח, עייפות וכו'.
3. גורמי טעות הקשורים בתוכן המבחן או השאלון– שאלות בנושא שלא נשאלו ויכלו לשנות את הציון הנצפה.

גורמי טעות הקשורים במאבחן בשופט או במעריך– השפעת הבדלים בין מערכים על הציון הנצפה.

מקדמי טעות שונים מתמקדים בגורמים אחרים לטעות. ככול שהמקדם גדול יותר, גורם הטעות הנמדד משפיע פחות על הציון הנצפה.

מהימנות כיציבות

Test-retest– מדידת מהימנות, ע"י חישוב המתאם בין 2 העברות של אותו מבחן, מתאם זה הוא מקדם המהימנות. ככול שהמתאם בין מדידות שנעשו בזמנים שונים גבוה יותר המבחן מהימן יותר.

יתרונות: יציבות המדידות לאורך זמן מלמדת, שהמדידה אינה רגישה לשינויים המתרחשים בזמן: מצב רוח, מזג אוויר, מידת המוטיבציה וכו'.

חסרונות: שיטה זו מעניקה מקדם מהימנות שהוא גבוה מהמקדם האמיתי. מ-2 סיבות:

היא לא מודדת את רגישות המבחן לחלק אחר של שונות הטעויות- בעיות בשאלות עצמן. היא בודקת את רגישותו לגורמים המשתנים לאורך זמן (מוטיבציה, מזג אוויר), אולם אם יש בעיות בשאלות, הן תישארנה לאורך כל המדידות. יתכן שהנבדק היה מגיב אחרת לשאלות האמורות לבדוק את אותה תכונה, ולכן הוא מקבל ציונים שונים בתכונה הנמדדת. רגישות זו לא תתגלה במתאם בין 2 העברות של אותו מבחן עם אותן שאלות עצמן.
2. אם המבחן נעשה ע"י אותו בוחן עדיין נותרת לנו ההשפעה של הבוחן או המעריך.

3.. להעברה הראשונה עלולה להיות השפעה על השניה- הנבדקים זוכרים חלק מהשאלות ויחזרו על אותו תשובות. בכך הם יגרמו למתאם מלאכותי גבוה בין המבחנים.

מהימנות כאקוויוולנטיות (נוסחים מקבילים, שקולים)

מדידת מהימנות, ע"י חישוב המתאם בין 2 נוסחים מקבילים של אותו מבחן. מתאם זה הוא מקדם המהימנות.

לשם כך, יש לבנות 2 נוסחים של אותו מבחן, שיעמדו ב-2 תנאים:

השאלות ב-2 הנוסחים מודדות את אותה תכונה.
השאלות ב-2 הנוסחים הן בעלות תכונות סטטיסטיות זהות– כאשר מעבירים את 2 הנוסחים על אותה אוכלוסיה, מקבלים התפלגות ציונים דומה.

יתרונות:

רגישות לשונות הטעויות, שמקורה בבחירת השאלות למבחן.
גם כאן ייתכן, שההעברה הראשונה תשפיע על השניה, אך השפעה זו הרבה פחות חמורה.

חסרונות: הקושי לבנות נוסחים מקבילים בעלי תכונות סטטיסטיות זהות.
לכן, רוב החוקרים נשענים על השיטה השלישית-

מהימנות כעקיבות פנימית

מדידת מהימנות ע"י חישוב המתאם בין פריטים שונים השייכים לאותו מבחן, המתאם הוא מקדם המהימנות.

היא מבוססת על ההנחה, שמבחן הוא מדגם פריטים, שכל אחד מהם וכולם יחד אמורים למדוד את אותו משתנה. אם הם אכן מודדים את אותו משתנה (ציונם האמיתי זהה), הרי שיהיה מתאם גבוה ביניהם. נעשה ע"י חישוב אלפא קורנבאך (או מקדם אלפא)

יתרונות:

ניתן להסתפק בהעברה חד-פעמית של מבחן אחד.
אין בעיות הנובעות מהשפעת העברת המבחן הראשונה על השניה.

חסרונות:

שיטה זו אינה רגישה לשונות טעויות הנובעת מהשפעות הזמן, כי המבחן מועבר רק פעם אחת (מזג אוויר, מחלה, מצב רוח וכו').
כמו"כ כן היא איננה מתאימה למבחנים שבודקים מספר עולמות תוכן, למשל פסיכומטרי.

מבחן חצוי

כאשר אין מידע על כל פריטי המבחן, ניתן לאמוד את העקיבות הפנימית ע"י מבחן חצוי- חישוב המתאם בין 2 חלקים של אותו מבחן. בד"כ מקבצים את הפריטים הזוגיים בקבוצה אחת והאי-זוגיים בקבוצה שנייה, אך אפשר לחלק גם בדרכים אחרות. המתאם מהווה אומדן למהימנות של כל מחצית בנפרד, בכדי לאמוד את מהימנות המבחן כולו משתמשים בנוסחת ספירמן-בראון. מהימנותו של המבחן השלם גדולה משל כל חצי (פרט למקרים שבו המתאם הוא 0 או 1).
**. כאשר יש נתונים לחשב אלפא קורנבאך עדיף לעשות זאת כיוון שמקדם אלפא הוא הממוצע של כל המבחנים החצויים שאפשר לעשות . לא מכל המבחנים החצויים נקבל את אותו מתאם ולכן האומדן של מקדם אלפא למתאם הוא טוב יותר.

שימו לב: מתאם בין פריטים אינו מבטיח תוקף- יכול להיות שהפריטים מודדים את אותו משתנה, אך משתנה זה אינו המשתנה שהחוקר התעניין בו.

מהימנות בין שופטים

כל מקדמי המהימנות עד כה, הניחו שהמדידה היא אובייקטיבית: נעשית ע"י מכשיר עם סטנדרטים אחידים לציינון של כל תשובה. אולם, יש מצבים בהם הערכת ההתנהגות מתבצעת ע"י שופט אנושי. במקרה כזה, מתווסף שלב ביניים לתהליך הציינון- תגובות הנבדקים עוברות עיבוד אנושי, ורק אז ניתן הציון על גבי סולם (שהוא כן אובייקטיבי, למשל, סולם מ-1-5. לא מדובר בשיפוט על סולם שהוא עצמו בעייתי- למשל תיאור אדם כ"חברותי").

כאן הבעיה היא שקביעת הציון היא סובייקטיבית– ייתכן, שכמה שופטים הצופים באותה התנהגות לא יתנו אותו ציון. בעייה זו אופיינית בתצפיות, ראיונות ובמבחני השלכה (רורשאך).

במצבים אלו, נוסף מרכיב של שונות טעויות הנובעת מהשופט עצמו (הוא עייף מידי/לא מגדיר נכון את התכונה הנמדדת/לא עקבי בשיפוטיו וכו') מרכיב שונות זה קרוב לאפס, כאשר המבחנים אובייקטיביים.

אחת הדרכים לקבוע את גודל שונות הטעויות הנובעת ממרכיב זה היא ע"י חישוב המתאם בין הערכות אנשים שונים לגבי אותו מדד, המתאם יהיה מקדם המהימנות בין שופטים, מתאם גדול יותר=מהימנות גדולה יותר בין שופטים. כשיש יותר מ2 שופטים נהוג לעשות מתאם בין כל שניים או להציג את ממוצע המתאמים בין כל שניים.

השוואה בין סוגי המהימנות:

סוג מהימנות	מספר נוסחים	מספר העברות	גורמי טעות פוטנציאליים- קבועים משתנים		גורמי טעות שבאים לידי ביטוי במדד זה
יציבות (מבחן חוזר)	1	2	תוכן השאלות	זמן העברה	זמן העברה
נוסחים שקולים ללא פער זמן	2	1	זמן העברה	תוכן השאלות	תוכן השאלות
נוסחים שקולים עם פער זמן	2	2	–	זמן העברה תוכן שאלות	זמן העברה תוכן שאלות
עקיבות פנימית (אלפא, SB)	1	1	זמן העברה	תוכן השאלות	תוכן השאלות
בין שופטים	1	1	זמן העברה תוכן השאלות	שופט	שופט

באיזה מדד לבחור?

סוג המבחן הוא הקובע באיזה מדד יש להשתמש:
1. מבחן הומוגני/הטרוגני– מבחן הומוגני הוא מבחן שכל פריטיו נועדו למדוד משתנה אחד. רוב המבחנים הם הטרוגניים- פריטים שונים מודדים היבטים שונים של תופעה, והמבחן כולו בודק כמה תכונות.

ממבחן הומוגני מצפים לעקיבות פנימית גבוהה.

ממבחן הטרוגני לא מצפים זאת, ובו יש לבדוק יציבות.

מבחן מהירות/כושר– מבחני מהירות הם מוגבלים בזמן ולא כל הנבדקים מספיקים לסיימם- לכן אין טעם לחשב עקיבות פנימית, משום שהמתאם בין הפריטים הראשונים לאחרונים הוא נמוך. במבחני מהירות יש לבדוק יציבות ואקוויוולנטיות.

במבחני כושר אין לחץ זמן, ולכן אפשר לבצע גם עקיבות פנימית.
3. מטרת ההערכה-כאשר מעונינים לבחון את יציבות התכונה לאורך זמן, יש טעם בהעברת השאלון פעמיים. מתאם גבוה ילמד שהתכונה הנמדדת היא תכונה יציבה. מתאם נמוך ילמד שהתכונה הנמדדת משתנה לאורך זמן.

עקיבות פנימית היא הביטוי הקרוב ביותר למשמעות התיאורטית של מהימנות.

מה הקשר בין המדדים השונים?

אין בהכרח קשר בין עקיבות פנימית ליציבות, אך יש קשר בין עקיבות פנימית לאקוויוולנטיות. כאשר יש מתאם פנימי בין פריטי המבחן השונים, ניתן לצפות, שיהיה גם מתאם בין פריטים אלו לבין מערך פריטים מקביל.

אם העקיבות הפנימית גבוהה בהרבה מהאקוויוולנטיות- יש לכך 2 הסברים: