Чи коригування р-значень у множинній регресії для кількох порівнянь є гарною ідеєю?


54

Припустимо, ви дослідник соціологічних наук / економетрист, який намагається знайти відповідних прогнозів попиту на послугу. У вас є 2 змінних, що залежать від результату / описують попит (використовуючи послугу "Так / ні" та кількість випадків). У вас є 10 змінних прогнозів / незалежних, які теоретично можуть пояснити попит (наприклад, вік, стать, дохід, ціна, раса тощо). Запуск двох окремих множинних регресій дасть оцінку 20 коефіцієнтів та їх p-значень. Маючи достатньо незалежних змінних у ваших регресіях, ви рано чи пізно знайдете принаймні одну змінну зі статистично значимою кореляцією між залежною та незалежною змінними.

Моє запитання: чи корисно виправити значення р для декількох тестів, якщо я хочу включити до регресії всі незалежні змінні? Будь-які посилання на попередню роботу високо оцінені.


хммм ... цікава проблема - двоваріантна регресія з однією змінною [різновидом] безперервної та однією дихотомічною. звичайна теорія регресії MVN говорить про те, що робити окремі регресії на кожну з двох біваріантних нормальних відповідей - а потім складати результати разом - це правильний аналіз - у сенсі гаусса-маркова мінімізація матриці vc матриці регресії серед усіх неупереджених лінійних оцінювачів - і у випадку MVN, серед усіх неупереджених оцінювачів]. «все ще найкраще можна зробити« окремі регресії », коли одна регресія є логістичною? [неупередженість здається дещо розтяжкою в цьому випадку,
excep

Відповіді:


48

Здається, ваше питання загалом вирішує проблему визначення добрих прогнозів. У цьому випадку слід розглянути можливість застосування певної санкції регресії (методи, що стосуються вибору змінної чи функції, також є актуальними), наприклад, покарання L1, L2 (або їх комбінація, так звана еластична мережа ) (шукайте відповідні питання на цей сайт, або R порушує і elasticnet пакет, серед інших).

Тепер щодо виправлення p-значень для ваших коефіцієнтів регресії (або, що еквівалентно ваших часткових коефіцієнтів кореляції) для захисту від надмірного оптимізму (наприклад, за допомогою Bonferroni або, ще краще, понижуючих методів), здається, це буде доречним лише в тому випадку, якщо ви розглядаєте одну модель і шукайте тих прогнозів, які сприяють значній частині поясненої дисперсії, тобто якщо ви не виконуєте вибір моделі (з покроковим відбором або ієрархічним тестуванням). Ця стаття може бути гарним початком: коригування Bonferroni в тестах для регресійних коефіцієнтів . Майте на увазі, що таке виправлення не захистить вас від проблеми мультиколінеарності, що впливає на повідомлені p-значення.

stepAICR2

Слід зазначити, що ступінчасті підходи мають і свої недоліки (наприклад, тести Уолда не адаптовані до умовної гіпотези, як це викликано поетапною процедурою), або, як вказує Франк Харрелл на R-розсилці , "покроковий змінний вибір на основі AIC має всі проблеми ступінчастого вибору змінної на основі P-значень. AIC - це лише перерахунок значення P "(але AIC залишається корисним, якщо набір предикторів вже визначений); пов'язане питання - Чи є змінна значення в лінійній регресійній моделі? - викликали цікаві коментарі ( @Rob , серед інших) щодо використання AIC для вибору змінної. Я додаю в кінці кілька посилань (включаючи документи, люб’язно надані @Stephan); також є багато інших посилань на P.Mean .

Френк Харрелл автор книги про стратегію регресійного моделювання, яка включає багато дискусій та порад щодо цієї проблеми (§4.3, с. 56-60). Він також розробив ефективні R процедури для роботи з узагальненими лінійними моделями (Див. Пакети « Дизайн» або « rms» ). Отже, я думаю, що ви обов'язково повинні поглянути на це (його роздаткові матеріали є на його домашній сторінці).

Список літератури

  1. Віттінгем, MJ, Stephens, P, Bradbury, RB, and Freckleton, RP (2006). Чому ми все ще використовуємо поетапне моделювання в екології та поведінці? Журнал екології тварин , 75 , 1182-1189.
  2. Остін, ПК (2008). Вибір моделі Bootstrap мав аналогічні показники для вибору автентичних і шумових змінних у порівнянні з усуненням змінних змінних: дослідження моделювання . Журнал клінічної епідеміології , 61 (10) , 1009-1017.
  3. Остін, ПК і Ту, СП (2004). Автоматизовані методи варіативного відбору для логістичної регресії давали нестабільні моделі прогнозування гострої смертності від інфаркту міокарда . Журнал клінічної епідеміології , 57 , 1138–1146.
  4. Гренландія, S (1994). Ієрархічна регресія для епідеміологічних аналізів множинних опромінень . Перспективи екологічного здоров'я , 102 (Дод. 8) , 33–39.
  5. Гренландія, S (2008). Багаторазове порівняння та вибір асоціацій у загальній епідеміології . Міжнародний журнал епідеміології , 37 (3) , 430-434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T і Sung L (2009). Визначення відносної важливості змінних при розробці та валідації прогнозних моделей . Методологія медичних досліджень BMC , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK та Hosmer, DW (2008). Цілеспрямований підбір змінних при логістичній регресії . Вихідний код з біології та медицини , 3 , 17.
  8. Бромбін, С, Фінос, Л та Салмазо, Л (2007). Регулювання ступеневих p-значень в узагальнених лінійних моделях . Міжнародна конференція з декількох процедур порівняння . - дивіться step.adj()в R someMTP- пакеті.
  9. Wiegand, RE (2010). Продуктивність використання декількох ступеневих алгоритмів для вибору змінної . Статистика в медицині , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW та Harrell FE (2004). Максимальна оцінка ймовірності пені для прогнозування бінарних результатів. Журнал клінічної епідеміології , 57 (12) , 1262–1270.
  11. Тібшірані, Р (1996). Регресійна усадка та вибір через ласо . Журнал Королівського статистичного товариства B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T, Johnstone, I і Tibshirani, R (2004). Найменший кут регресії . Анали статистики , 32 (2) , 407-499.
  13. Flom, PL та Cassell, DL (2007). Зупинка поетапно: чому поетапні та подібні методи відбору погані та які слід використовувати . NESUG 2007 Матеріали .
  14. Штатланд, Е.С., Каїн, Е. та Бартон, МБ (2001). Небезпека поетапної логістичної регресії та шляхи їх усунення за допомогою інформаційних критеріїв та системи доставки продукції . SUGI 26 Матеріали (с. 222–226).

10
Я не заперечую проти голосу, але коментар буде вдячний (тому я можу сам дізнатися, зрозуміти, що було не так, і вдосконалити свої подальші відповіді).
chl

3
+1, хороша відповідь, а також відправляючи коментар chl про те, щоб залишити пояснення для downvotes, щоб допомогти авторові та читачам зрозуміти, чого може не вистачати. Дякую.
АРС

Рекомендація другого хлопця використовувати певну регресію (наприклад, Лассо).
S. Kolassa - Відновіть Моніку

10
@chl: Я незадоволений тим, що рекомендую поетапний вибір предиктора. Зазвичай це ґрунтується на p-значеннях ("виключіть предиктор з p> .15, включіть його, якщо p <.05") і призводить до упереджених оцінок та поганої прогнозованої роботи (Whittingham et al., 2006, Чому ми все ще використовувати поетапне моделювання в екології та поведінці? J Anim Ecol, 75, 1182-1189). Однак поетапні підходи на основі AIC мають ту саму слабкість - Френк Харрелл обговорив це у дописі до R-довідки в понеділок, 09 серпня 2010 16:34:19 -0500 (CDT) у темі "Логістична регресія в R (SAS - як вихід) ".
С. Коласа - Відновіть Моніку

Чи є спосіб включити посилання в коментарі?
С. Коласа - Відновіть Моніку

25

З великою мірою ви можете робити все, що завгодно, за умови, що ви тримаєте достатньо даних навмання, щоб перевірити будь-яку модель, яку ви придумали на основі збережених даних. 50% розкол може бути хорошою ідеєю. Так, ви втрачаєте деяку здатність виявляти стосунки, але те, що ви отримуєте, величезне; а саме можливість копіювати свою роботу до її публікації. Незалежно від того, наскільки складні статистичні методи ви несете, ви будете шоковані тим, скільки "значущих" провісників закінчуються абсолютно марними при застосуванні до даних підтвердження.

Майте також на увазі, що "релевантний" для прогнозування означає більше, ніж низьке значення p. Зрештою, це означає лише, що ймовірно, що відносини, знайдені в цьому конкретному наборі даних, не є випадковими. Для прогнозування насправді важливіше знайти змінні, які чинять істотний вплив на передбачення (без надмірної підгонки до моделі); тобто знайти змінні, які, ймовірно, є "справжніми", і коли вони змінюються в межах розумного діапазону значень (не лише значень, які можуть виникнути у вашому зразку!), спричиняють істотне коливання прогнозу. Якщо у вас є дані про затримку для підтвердження моделі, ви можете бути зручнішими, тимчасово зберігаючи незначно "значущі" змінні, які можуть мати низькі значення p.

З цих причин (і спираючись на точну відповідь chl), хоча я знайшов поетапні моделі, порівняння AIC та виправлення Бонферроні досить корисними (особливо із сотнями чи тисячами можливих прогнозів у грі), вони не повинні бути єдиними визначальними чинниками змінних введіть свою модель. Не втрачайте з уваги вказівки, що надаються теорією: змінні, які мають сильне теоретичне обґрунтування, щоб бути у моделі, зазвичай повинні зберігатися, навіть якщо вони не є істотними, за умови, що вони не створюють неправильних умов ( наприклад, колінеарності) .

Примітка : Після того, як ви встановите модель та підтвердили її корисність за допомогою даних про витримку, непогано рекомбінувати збережені дані з даними про затримку для остаточної оцінки. Таким чином, нічого не втрачається з точки зору точності, з якою можна оцінити модельні коефіцієнти.


Дякую! Якщо у вас немає доступу до вихідних даних, а лише до таблиці коефіцієнтів регресії, чи коригування Bonferroni є вашим єдиним вибором?
Mikael M

4
Імовірно, у вас також є р-значення :-). Але, маючи лише ті коефіцієнти, важко уявити, що ще можна зробити, крім коригування Бонферроні. (Я завжди роблю таке коригування, коли читаю будь-який папір з декількома тестами: це швидкий спосіб вивідати результати, які, ймовірно, будуть непотрібними.) Більшість людей також надають підсумкову статистику змінних: ви можете використовувати діапазони або sds разом із коефіцієнти для оцінки, який вплив може мати кожна пояснювальна змінна на передбачуваний.
whuber

Дякуємо за ваше пояснення, esp. про перехресну перевірку. Я вдячний вашому останньому аргументу, тобто тому, що ми також повинні шукати теоретичну актуальність (за межами p-значень).
chl

19

Я думаю, що це дуже гарне питання; вона потрапляє до основи суперечливої ​​"багатопрофільної" тестової "проблеми", яка заражає поля, починаючи від епідеміології до економетрики. В кінці кінців, як можна нам знати , якщо значення ми знаходимо підроблений чи ні? Наскільки правдива наша багатовимірна модель?

З точки зору технічних підходів, щоб компенсувати ймовірність публікації змінних шумів, я від душі погодився би з "whuber", що використання частини вашого зразка в якості навчальних даних, а решта в якості тестових даних є гарною ідеєю. Це підхід, який обговорюється в технічній літературі, тому, якщо ви знайдете час, ви, ймовірно, зможете знайти кілька хороших рекомендацій щодо того, коли і як ним користуватися.

Але для більш прямого враження щодо філософії багаторазового тестування пропоную прочитати статті, на які я посилаюсь нижче, деякі з яких підтримують позицію про те, що коригування для багаторазового тестування часто є шкідливим (витрата енергії), непотрібним і навіть може бути логічним помилкою. . Я, наприклад, не приймаю автоматично твердження про те, що наша здатність досліджувати одного потенційного предиктора невблаганно знижується дослідженням іншого. Сім'ї мудрі Тип 1 частота помилок може зростати по мірі включати більше провісників в даній моделі, але до тих пір , поки ми не виходимо за межі нашого розміру вибірки, ймовірність помилки типу 1 для кожного людинипредиктор постійний; і керування помилкою для сімейних помилок не висвітлює, яка конкретна змінна є шумом, а яка ні. Звичайно, є і зухвалі контраргументи.

Отже, доки ви обмежуєте свій список потенційних змінних тими, які є правдоподібними (тобто, мали б відомі шляхи до результату), тоді ризик помилковості вже досить добре вдається.

Однак я додам, що модель прогнозування не стосується «істинності» своїх прогнокторів, як причинної моделі; в моделі може виникнути велика сум’яття, але поки ми пояснюємо велику ступінь дисперсії, ми не надто переживаємо. Це полегшує роботу, принаймні в одному сенсі.

Ура,

Бреден, консультант з біостатистики

PS: ви можете зробити нульову завищену пуассонову регресію для описаних вами даних замість двох окремих регресій.

  1. Perneger, TV Що не так з коригуваннями Bonferroni . BMJ 1998; 316: 1236
  2. Кук, RJ та прощання, В.Т. Розгляд міркувань щодо кратності при розробці та аналізі клінічних випробувань . Журнал Королівського статистичного товариства , серія A 1996; Вип. 159, № 1: 93-110
  3. Rothman, KJ Немає коригувань для кількох порівнянь . Епідеміологія 1990; Вип. 1, № 1: 43-46
  4. Маршалл, Дж. Дж. Драгування даних та вагомість . Епідеміологія 1990; Вип. 1, № 1: 5-7
  5. Ґренландія, С. і Робінс, Дж. М. Емпіричні-Бейс коригування для кількох порівнянь іноді корисні . Епідеміологія 1991; Вип. 2, № 4: 244-251

Продовження: 2. Кухар RJ і прощання з враженнями щодо множинності ВТ при розробці та аналізі клінічних випробувань. Журнал Королівського статистичного товариства, серія A 1996; Вип. 159, № 1: 93-110
Бренден

Дякую за коментарі, Бренден, особливо останній щодо прогнозування проти причинного пояснення. І ласкаво просимо на сайт! Я сподіваюся побачити ще багато ваших внесків у майбутньому.
whuber

Продовження: 3. Rothman KJ Немає коригувань для кількох порівнянь. Епідеміологія 1990; Вип. 1, № 1: 43-46 4. Маршалл Ю.Р. Дані днопоглиблення та примітка. Епідеміологія 1990; Вип. 1, № 1: 5-7 5. Гренландська С. і Робінс Дж. М. Емпіричні-Бейс коригування для кількох порівнянь іноді корисні. Епідеміологія 1991; Вип. 2, № 4: 244-251
Бренден

(+1) Ви можете бути зацікавлені в наступних потоків: stats.stackexchange.com/questions/3252 / ... . Здається, ми поділяємо багато спільних посилань :-)
chl

6

Тут є хороші відповіді. Дозвольте додати пару невеликих моментів, які я не бачу в інших місцях.

По-перше, яка природа змінних ваших відповідей? Більш конкретно, чи їх розуміють як пов'язані між собою? Вам слід зробити дві окремі множинні регресії, якщо вони розуміються як незалежні (теоретично) / якщо залишки від двох моделей є незалежними (емпірично). В іншому випадку слід врахувати багатоваріантну регресію. ("Багатоваріантна" означає> 1 змінну відповіді; "множина" означає> 1 змінну предиктора.)

F


0

Ви можете зробити, здавалося б, незв'язану регресію і використовувати тест F. Введіть ваші дані в таку форму:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

так що передбачувачі вашого першого результату мають свої значення, коли цей результат є змінною y, а 0 інакше і навпаки. Тож ваш y - це список обох результатів. P11 і P12 є двома предикторами для першого результату, а P21 і P22 - двома предикторами для другого результату. Якщо секс, скажімо, є провісником для обох результатів, його використання для прогнозування результату 1 має бути в окремій змінній / стовпчику при прогнозуванні результату 2. Це дозволяє регресувати різний нахил / вплив на секс для кожного результату.

У цьому рамках ви можете використовувати стандартні процедури тестування F.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.