Чи слід «створювати» коваріати, які не мають статистичного значення?


39

У моєму розрахунку для моделі є кілька коваріатів, і не всі вони є статистично значимими. Чи слід видаляти ті, що їх немає?

Це питання обговорює явище, але не відповідає на моє запитання: Як інтерпретувати несуттєвий ефект коваріату в ANCOVA?

У відповіді на це запитання немає нічого, що говорить про те, щоб зняти несуттєві коваріати, тому я зараз схильний вірити, що вони повинні залишитися. Перш ніж навіть прочитати цю відповідь, я думав про те, що колись коваріат Ви все ще можете пояснити деякі дисперсії (і, таким чином, допомогти моделі), не обов'язково пояснюючи суму, що перевищує деякий поріг (поріг значущості, який я вважаю непридатним для коваріатів).

Дещо в резюме є ще одне запитання, на яке відповідь, мабуть, означає, що коваріати повинні зберігатися незалежно від їх значущості, але це не ясно. (Я хочу посилання на це питання, але я не зміг його знову відшукати.)

Отже ... Чи слід зберігати коваріати, які не є статистично значущими при обчисленні для моделі? (Я відредагував це запитання, щоб уточнити, що коваріати ніколи не виводяться в модель за допомогою обчислення.)

Щоб додати ускладнення, що робити, якщо коваріати є статистично значущими для деяких підмножин даних (підмножини, які повинні оброблятися окремо). Я б за замовчуванням зберігав такий коваріат, інакше доведеться використовувати або різні моделі, або у вас буде відсутність статистично значущого коваріату в одному з випадків. Якщо ви також маєте відповідь на цей розділений випадок, будь ласка, зазначте його.


6
Взагалі кажучи, я б сказав, що ви повинні зберігати змінні, які є теоретично важливими або які були значущими в попередніх дослідженнях, навіть якщо ваші дані не підтримують їх вплив. Зважаючи на це, для отримання більш конкретної відповіді, я думаю, вам слід додати пару рядків для пояснення вашої моделі та її мети (наприклад, визначення факторів ризику, прогнозування, ...).
окрам

Я б сказав, що це залежить. Тести - лише показники. Якщо ви вважаєте, що має бути невелика залежність, тоді подумайте про дотримання моделі. Якщо ви також вірите, що залежності не повинно бути там, тоді залишайте її.
Bene

Гаразд, тож ви обидва говорите, що несуттєвість не диктує відхилення коваріату з розгляду, тому ви обоє насправді відповіли на моє запитання. Я б насправді перефразував своє запитання, щоб більш чітко вказати, що я запитую, чи є статистична значимість коваріату необхідною умовою його збереження ("Чи означає несуттєве значення коваріату, його слід усунути ..."), і Я б прийняв будь-який ваш коментар як відповідь.
AM

Перш ніж це зробити, хотілося б переконатися, що я використовую правильну термінологію. Спочатку я писав "тримається в моделі", але це не здавалося правильним, оскільки коваріати ніколи не з'являються в моделі. Я погодився з "тримається в розрахунку для моделі " (і "вилучено з розгляду "), але чи є кращий спосіб сказати це? Який правильний термін для того, що зберігається або видаляється коваріат?
AM

3
Вам потрібно буде перевірити правильність виконання таких процедур відбору. Інші зазнали невдачі.
Френк Харрелл

Відповіді:


32

Ви вже отримали кілька хороших відповідей. Є причини зберігати коваріати та причини скидати коваріати. Статистична значимість не повинна бути ключовим фактором у переважній більшості випадків.

  1. Коваріати можуть мати таке істотне значення, що вони повинні бути там.
  2. Розмір ефекту коваріату може бути високим, навіть якщо він не є значним.
  3. Коваріат може впливати на інші аспекти моделі.
  4. Коваріат може бути частиною того, як була викладена ваша гіпотеза.

Якщо ви перебуваєте в дуже дослідному режимі і коваріат не важливий в літературі, а розмір ефекту невеликий, а коваріат мало впливає на вашу модель, а коваріат не був у вашій гіпотезі, то ви, ймовірно, могли його видалити просто для простоти .


6
Тут вказується дуже важлива, але часто занедбана ситуація, але я її проаналізую. Часто - дійсно зазвичай - вам слід порівнювати результати з результатами попередніх працівників із подібними даними. Якщо інші знайшли конкретні коваріати, які варто включити у свої моделі, вам слід порівнювати результати з їхніми незалежно від того, чи досягають ваші коваріати (звичайні) рівні значущості. Зауважте, що випадки тут можуть відрізнятися від звітних моделей, які ви вирішили, не (особливо) хороші до звітних моделей, для яких ви вирішили, що вони хороші.
Нік Кокс

1
Я, безумовно, схилявся до «триматися в собі» (і в першу чергу не робив великого значення для коваріатів), але ваша відповідь робить дуже приємним контрольним списком (ну… два) для меншості. Розмір ефекту - це те, що я не розглядав, і, хоча я розглядав гіпотези, мені дуже подобається, що ви включили його, з причин, про які згадував @NickCox, і просто для того, щоб відмовити риболовлі.
AM

25

П


10
Довга відповідь - «так»! +1 і LOL
Пітер Флом - Відновіть Моніку

Якщо не р-значення, то які інші причини для видалення прогнозів? Ви згадуєте інтерпретацію довірчих інтервалів, але здається, що "цікавий діапазон" був би нульовим, а значить, люди інтерпретують CI так, як p-значення (включення або виключення нуля).
Марк Уайт

1
Які причини усунути предиктори, коли це спотворює статистичні властивості? Не зрозуміло у вашому питанні та "нуль".
Френк Харрелл

7

Одне корисне розуміння полягає в тому, що насправді немає нічого конкретного щодо коваріату статистично кажучи, див. Наприклад Допомога в написанні коваріатів у формулу регресії . Між іншим, це може пояснити, чому немає covariateтегу. Отже, матеріал тут і в іншому місці про несуттєві терміни в лінійній моделі є актуальними, як і добре відомі критики ступінчастої регресії, навіть якщо про ANCOVA прямо не згадується.

Взагалі кажучи, погана ідея вибору предикторів, що базуються лише на важливості. Якщо ви не можете заздалегідь вказати модель, слід розглянути інші підходи, але якщо ви планували включити їх в першу чергу, відповідно зібрані дані і не стикаєтесь з конкретними проблемами (наприклад, колінеарність), просто зберігайте їх.

Щодо причин утримати їх, то мені здаються заперечення, які ви висловили. Іншою причиною може бути те, що вилучення несуттєвих прогнозів упереджених висновків на основі моделі. Ще один спосіб поглянути на все це - запитати, що можна було б отримати, видаляючи ці коваріати після факту.


4

Нам дійсно потрібна додаткова інформація про ваші цілі, щоб відповісти на це питання. Регресії використовуються для двох основних цілей:

  1. Прогнозування
  2. Висновок

Прогнозування полягає в тому, що ваша мета - вміти вгадувати значення змінної результату за спостереженнями, які не є у вибірці (хоча зазвичай вони знаходяться в межах вибіркових даних – інакше ми іноді використовуємо слово "прогнозування"). Прогнозування корисно для рекламних цілей, фінансів тощо. Якщо ви просто зацікавлені в прогнозуванні певної змінної результатів, мені мало що запропонувати.

Висновок - це те, де весело (навіть якщо воно не там, де гроші). Висновок - це те, де ви намагаєтеся зробити висновки щодо конкретних параметрів моделі - зазвичай для визначення причинного впливу однієї змінної на іншу. Незважаючи на загальне сприйняття, регресійний аналіз ніколи не є достатнім для причинного висновку. Ви завжди повинні знати більше про процес генерування даних, щоб знати, чи враховує ваша регресія причинний ефект. Ключовим питанням причинного висновку від регресій є те, чи умовне середнє значення помилки (умовне для регресорів) дорівнює нулю. Це не можна дізнатися з р-значень на регресорах. Можна мати оцінювачі регресії, які є неупередженими або послідовними, але для цього потрібно набагато більше зусиль, ніж просто кидати в регресію явні контролі та сподіватися, що ви отримали важливі.Освоєння «Метрики: Шлях від причини до ефекту та здебільшого нешкідливої ​​економетрики» . Оволодіння метрикою простіше читати і коштує досить дешево, але попередити, що це не спосіб лікування регресій, а те, що вони означають. Для гарного висвітлення прикладів хороших та поганих спостережень конструкцій досліджень я рекомендую «Статистичні моделі та шкіра взуття» Девіда Фрідмана (1991), « Соціологічна методологія» , т. 21 (короткий і легкий прочитання із захоплюючими прикладами).

Убік: одержимість статистичною технікою над хорошим дизайном досліджень у більшості курсів коледжу є моєю педагогічною проблемою.

По-друге, окрім мотивації актуальної важливості цього питання: відмінність між прогнозуванням і висновком полягає в тому, чому великі дані не є заміною для науки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.