Розуміння регресій - роль моделі


46

Як може бути корисна модель регресії, якщо ви не знаєте функції, для якої намагаєтеся отримати параметри?

Я побачив фрагмент дослідження, в якому говорилося, що матері, які годували грудьми своїх дітей, рідше хворіють на діабет у подальшому житті. Дослідження було проведене під час опитування близько 1000 матерів і було контрольовано на наявність різних факторів, і була використана логінальна модель.

Тепер це означає, що вони враховують всі чинники, що визначають ймовірність виникнення діабету в хорошій функції (імовірно, експоненціально), яка чітко переводиться в лінійну модель з логінами, і що чи годувала жінка грудьми статистично важливою?

Я пропускаю щось, в чому я впевнений, але, як, чорт, вони знають модель?


Дуже дякую всім Я хочу витратити трохи часу на роздуми над вашими відповідями і, можливо, якщо ви не заперечуєте над тим, щоб спробувати написати їх у моїх думках для ваших поглядів. Мені подобається, що цей опис процесу виходить із серії Тейлора. Мені довелося зібрати свої знання з регресії випадково і через економіку та математику для економістів, і зв’язок з Тейлором помітний через його відсутність.
Джонатан Ендрюс

Я з’єднав ваші рахунки; але будь ласка, зареєструйте його тут stats.stackexchange.com/users/login, щоб ви не втратили його знову.

Відповіді:


43

Це допомагає розглядати регресію як лінійне наближення справжньої форми. Припустимо, справжні стосунки є

y=f(x1,...,xk)

з фактори, що пояснюють y . Тоді наближення Тейлора першого порядку f навколо нуля дорівнює:x1,...,xkyf

f(x1,...,xk)=f(0,...,0)+i=1kf(0)xkxk+ε,

де - похибка наближення. Тепер позначимо і і у тебе є регресія:εα до = F ( 0 )α0=f(0,...,0)αk=f(0)xk

y=α0+α1x1+...+αkxk+ε

Отже, хоча ви не знаєте справжніх стосунків, якщо невеликий, ви отримуєте наближення, з якого ще можна зробити корисні висновки.ε


1
Привіт, дуже приємне пояснення, але мені не вдається зрозуміти частину "сигми" в розширенні серії Тейлор. Як ви зменшите це рівняння, знайдене тут: mathworld.wolfram.com/TaylorSeries.html у розділі "Серія Тейлора реальної функції у двох змінних" до вашої?
Арун

1
@Арун, візьмемо у формулі (32). n=1
mpiktas

18

Інша сторона відповіді, що доповнює відповідь mpiktas, але не згадується до цього часу:

"Вони цього не роблять, але як тільки вони припустять якусь структуру моделі, вони можуть перевірити її на даних".

Дві основні речі, які можуть піти не так: Форма функції, наприклад, вона не є лінійною навіть у журналах. Отже, для початку слід побудувати відповідний залишок проти очікуваних значень. Або вибір умовного розподілу , наприклад, спостережувані підрахунки перевершені щодо Пуассона. Тож ви протестуєте проти негативної біноміальної версії тієї самої моделі або переконаєтесь, що додаткові варіації враховують додаткові зміни.

Ви також хочете перевірити, чи немає інших людей, впливових спостережень та інших речей. Доцільне місце для читання подібних проблем з моделями - це ч.5 Камерона та Триведі 1998 року. (Напевно, для епідеміологічно орієнтованих дослідників краще місце - можливо, це можуть запропонувати інші люди.)

Якщо ця діагностика вказує, що модель не відповідає даним, слід змінити відповідний аспект моделі і запустити весь процес заново.


1
+1 Це ключ, який перешкоджає маханню руками: ви не знаєте, але ви щось спробуйте, а потім подивіться, наскільки це відповідає і яким чином вони не відповідають вашим даним.
Уейн

15

Відмінне перше питання! Я погоджуюся з відповіддю mpiktas, тобто коротка відповідь - "вони не мають, але вони сподіваються мати наближення до правильної моделі, яка дає приблизно правильну відповідь".

У жаргоні епідеміології ця невизначеність моделі є одним із джерел того, що називається « залишковою заплутаністю ». Дивіться сторінку Стіва Саймона "Що таке залишкове заплутування?" для кращого короткого опису, або доповідь Хейко Бехера 1992 року в « Статистика статистики медицини» (передплата перед необхідністю) для більш тривалого, більш математичного лікування, або найновіший документ Дейві Сміта та Стерна в « Американському журналі епідеміології» (підписка req'd ).

Це одна з причин того, що епідеміологія малих наслідків є складною, а результати часто суперечливими - якщо розмір вимірюваного ефекту невеликий, важко виключити залишковий заплутаність чи інші джерела упередженості як пояснення.


1
Я б заперечував, що неправильне уточнення моделі - яке, здається, те, про що йдеться в ОП, дещо відрізняється від залишкового непорозуміння. Заплутаність вимагає коваріату. Можна накрутити регресію лише з неправильним визначенням впливу та результату.
Фоміт

13

Є відома цитата "По суті, всі моделі помиляються, але деякі корисні" Джорджа Бокса . Підбираючи подібні моделі, ми намагаємось (або повинні) думати про процес генерації даних та фізичний, реальний світ, взаємозв'язок між реакцією та коваріатами. Ми намагаємося висловити ці відносини в моделі, що відповідає даним. Або, кажучи іншим чином, узгоджується з даними. Як така емпірична модель виробляється.

Корисна вона чи ні, визначається пізніше - чи дає вона хороші, надійні прогнози, наприклад, для жінок, які не звикли підходити до моделі? Чи є інтерпретації модельних коефіцієнтів та наукових цілей? Чи мають значення розміри ефекту?


3

Відповіді, які ви вже отримали, є відмінними, але я збираюся дати додаткову відповідь з точки зору епідеміолога. У мене справді є три думки з цього приводу:

По-перше, вони цього не роблять. Дивіться також: Усі моделі неправильні, деякі моделі корисні. Мета - не створити єдине, остаточне число, яке сприймається як "істина" основної функції. Метою є скласти оцінку цієї функції з кількісним визначенням невизначеності навколо неї, що є розумним і корисним наближенням основної функції.

Особливо це стосується заходів великих ефектів. Повідомлення "забрати" у дослідженні, яке виявляє відносний ризик 3,0, насправді не відрізняється, якщо "справжнє" співвідношення становить 2,5 або 3,2. Як зазначав @onestop, це стає складніше з невеликими оцінками вимірювання ефектів, оскільки різниця між 0,9, 1,0 та 1,1 може бути величезною з точки зору охорони здоров'я та політики.

По-друге, у більшості робіт з епідеміології є процес, прихований. Це власне процес вибору моделі . Ми схильні повідомляти про модель, яку ми закінчили, не про всі розглянуті нами моделі (тому що це було б втомлено, якби нічого іншого). Існує цілий ряд кроків побудови моделі, концептуальні діаграми, діагностика, статистика підгонки, аналіз чутливості, лаяння комп’ютерів та скрегітування на білих дошках, які беруть участь в аналізі навіть невеликих спостережних досліджень.

Тому що в той час як ви перебуваєте робити припущення, багато хто з них також припущень , які ви можете перевірити.

По-третє, іноді ми цього не робимо. А потім ми йдемо на конференції і між собою посперечаємось;)

Якщо вас цікавлять гайки та болти епідеміології як галузі та як ми проводимо дослідження, найкраще місце для початку - це, напевно, сучасна епідеміологія 3-го видання Ротмана, Гренландії та Лаша. Це помірно технічний і дуже хороший огляд того, як проводяться дослідження Епі.


1
+1, це хороше доповнення до того, що тут. Приємно бачити, що корисний внесок все-таки можна зробити, навіть після того, як існує вже багато інших хороших.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.