Чи прогноктор з більшою дисперсією "кращий"?


13

У мене є питання щодо поняття "основна статистика". Як студент, я хотів би знати, чи я думаю про це абсолютно неправильно, і чому, якщо так:

Скажімо, я гіпотетично намагаюся розглянути взаємозв'язок між "проблемами управління гнівом" і сказати про розлучення (так / ні) в рамках логістичної регресії, і я маю можливість використовувати два різні показники управління гнівом - обидва з 100.
Оцінка 1 походить від інструменту оцінювання 1 для анкети та іншого мого вибору; оцінка 2 походить з іншої анкети. Іпотетично ми маємо підстави вважати з попередньої роботи, що питання управління гнівом породжують розлучення.
Якщо в моїй вибірці з 500 осіб дисперсія балу 1 набагато вища, ніж оцінка 2, чи є підстави вважати, що оцінка 1 була б кращою оцінкою для прогнозування розлучення на основі її відмінності?

Мені це інстинктивно здається правильним, але чи так?


Цікаве запитання, я вважаю, що відповідь Вюбера це чудово пояснює. Першою моєю відповіддю на запитання було: «Збільшення дисперсії не тягне за собою вищої класифікаційної інформації».
Жубарб

Відповіді:


11

Кілька швидких моментів:

  • Варіант може бути довільно збільшений або зменшений, прийнявши іншу шкалу для вашої змінної. Помноження шкали на постійну, більшу від одиниці, збільшило б дисперсію, але не змінило б прогнозну силу змінної.
  • Ви можете плутати дисперсію з надійністю. Якщо всі інші рівні (і якщо припустити, що існує хоч якесь справжнє прогнозування балів), підвищення надійності, з якою ви вимірюєте конструкцію, повинно збільшити її прогнозовану силу. Ознайомтеся з цим обговоренням виправлення на ослаблення .
  • Якщо припустити, що обидві шкали складалися з двадцяти п'ятибальних елементів і, таким чином, мали загальну кількість балів, яка варіювалась від 20 до 100, то версія з більшою дисперсією також була б більш надійною (принаймні, з точки зору внутрішньої узгодженості).
  • Надійність внутрішньої послідовності - не єдиний стандарт, за яким можна судити про психологічний тест, і це не єдиний фактор, який відрізняє прогностичну силу однієї шкали від іншої для даної конструкції.

9

Простий приклад допомагає нам визначити, що є важливим.

Y=C+γX1+ε

CγX1ε

X1=αX2+β.

X1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

Параметри змінюються, а дисперсія незалежної змінної змінюється , проте можливість прогнозування моделі залишається незмінною .

X1X2YYХi

Х1Х2YYХ1Х2Х2


1

Завжди перевіряйте припущення щодо статистичного тесту, який ви використовуєте!

Одне з припущень логістичної регресії - незалежність помилок, що означає, що випадки даних не повинні бути пов’язані. Напр. Ви не можете виміряти одних і тих же людей у ​​різні моменти часу, які, я боюсь, ви могли зробити з опитуваннями щодо управління гнівом.

Я б також хвилювався, що за допомогою двох опитувань управління гнівом ви в основному вимірюєте те саме, і ваш аналіз може постраждати від мультиколінеарності.


1
Я думаю, що N26 пропонує мисленнєвий експеримент. Тобто, якщо при розробці дослідження у вас є вибір між двома шкалами, чи слід віддати перевагу, prima facie, тій, що має більшу дисперсію. Також наявність двох предикторів, які представляють один і той же конструкт, але вимірюються по-різному, не порушує припущення про незалежність спостережень.
Джеромі Англім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.