Чи припущення про лінійність у лінійній регресії є лише визначенням ?


10

Я переглядаю лінійну регресію.

У підручнику Гріна сказано:

введіть тут опис зображення введіть тут опис зображення

Тепер, звичайно, будуть існувати й інші припущення щодо лінійної регресійної моделі, такі як . Це припущення у поєднанні з припущенням про лінійність (яке фактично визначає ) ставить структуру на модель.ϵE(ϵ|X)=0ϵ

Однак припущення про лінійність саме по собі не наводить жодної структури нашої моделі, оскільки може бути абсолютно довільним. Для будь-яких змінних взагалі, незалежно від того, яке відношення між цими двома ми могли б визначити таким, що має місце припущення про лінійність. Таким чином, лінійність «припущення» на насправді слід називати визначення з , а не припущення.X , y ϵ ϵϵX,yϵϵ

Тому мені цікаво :

  1. Хіба Грін неохайно? Чи повинен він насправді написати: ? Це "припущення про лінійність", яке фактично ставить структуру на модель.E(y|X)=Xβ

  2. Або я повинен прийняти, що припущення про лінійність не містить структури моделі, а лише визначає , де інші припущення будуть використовувати це визначення для нанесення структури на модель?ϵϵϵ


Редагувати : оскільки, мабуть, існує певна плутанина щодо інших припущень, дозвольте мені додати тут повний набір припущень:

введіть тут опис зображення

Це з Гріна, Економетричний аналіз, 7-е видання. p. 16.


4
Це перцептивні спостереження (+1). Хоча, справедливо кажучи, я вважаю, що більшість (якщо не всі) авторів працюють в рамках, в якому саме значення помилки добавки типу включає припущення, що її розподіл зосереджено на рівні . 0ϵ0
whuber

2
@whuber, я додав цілий набір припущень. подивіться на A3. A3 чітко виражає, що він зосереджений на 0, що означатиме, що Грін не припускає цього в A1, що залишає мене сумніватися, чи має A1 взагалі якийсь логічний зміст, крім визначення . ϵ
user56834

2
Значення переліку припущень полягає в тому, що вони дотримуються колективно, а не окремо. Це не виявляє жодної "неохайності".
whuber

2
@AdamO, слово "правильно", здається, не має для мене точного значення. Я намагаюся точніше зрозуміти це. Мені здається, що найбільш точне формулювання всього цього полягає в тому, щоб сказати, що припущення 1 слід називати "визначенням ", і тоді все має сенс. Або я насправді чогось пропускаю, саме тому я задав це питання. На жаль, поки що я не бачив прямої відповіді на це питанняϵ
user56834

2
@ Programmer2134 ви отримуєте неточні відповіді, оскільки ви задаєте неточне запитання. Як ви не кажете, «не накладайте структуру на модель». Якщо використовується неправильна середня модель ( ), то відповідь характеризується як . а залишки приймаються як сума зміщення та похибки. Y = f ( x ) + зміщення + помилкаf(x)Y=f(x)+bias+error
АдамО

Відповіді:


8
  1. Хіба Грін неохайно? Чи повинен він насправді написати: ? Це "припущення про лінійність", яке фактично ставить структуру на модель.E(y|X)=Xβ

У певному сенсі, так і ні. З одного боку, так, зважаючи на сучасні сучасні дослідження причинності, він неохайний, але так само, як і більшість підручників з економетрики, є в тому сенсі, що вони не чітко розмежовують причинно-наслідкові та спостережливі величини, що призводить до загальної плутанини, як саме це питання. Але, з іншого боку, ні, це припущення не є неохайним у тому сенсі, що воно справді відрізняється від простого припущення .E(y|X)=Xβ

Суть речовини тут полягає в різниці між умовним очікуванням, і структурним (причинним) рівнянням , а також його структурним (причинним) очікуваннямy E [ Y | d o ( X ) ]E(y|X)yE[Y|do(X)] . Припущення про лінійність у Гріна є структурним припущенням. Подивимося простий приклад. Уявімо, структурне рівняння таке:

y=βx+γx2+ϵ

Тепер нехай . Тоді ми мали б:E[ϵ|x]=δxγx2

E[y|x]=βx

де . Більше того, ми можемо записати і у нас буде . Це показує, що ми можемо мати правильно задане лінійне умовне очікування яке за визначенням матиме ортогональне порушення, проте структурне рівняння було б нелінійним.y = β x + ϵ E [ ϵ | x ] = 0 E [ y | х ]β=β+δy=βx+ϵE[ϵ|x]=0E[y|x]

  1. Або я повинен прийняти, що припущення про лінійність не містить структури моделі, а лише визначає , де інші припущення будуть використовувати це визначення для нанесення структури на модель?ϵϵϵ

Припущення про лінійність визначає , тобто за визначенням, де представляє відхилення від його очікування, коли ми експериментально набір ( див. розділ 5.4 Перлини ). Інші припущення використовуються або для ідентифікації структурних параметрів (наприклад, припущення про екзогенність дозволяє ідентифікувати структурне очікування із умовним очікуванням ) або для виведення статистичних властивостей оцінювачівϵϵ:=yXβ=yE[Y|do(X)]ϵy XϵE[Y|do(X)]E[Y|X] (наприклад, припущення гарантійної гарантії OLS є БІЛОМ, припущення про нормальність полегшує отримання результатів "кінцевої вибірки" для висновку тощо).

Однак припущення про лінійність саме по собі не наводить жодної структури нашої моделі, оскільки може бути абсолютно довільним. Для будь-яких змінних взагалі, незалежно від того, яке відношення між цими двома ми могли б визначити таким, що має місце припущення про лінійність.ϵX,yϵ

Ваша заява тут переходить до основної проблеми причинного висновку взагалі! Як показано в простому прикладі вище, ми можемо підготувати структурні порушення, які могли б зробити умовне очікування заданого лінійним. Загалом, декілька різних структурних (причинних) моделей можуть мати однаковий розподіл спостережень, можна навіть мати причину без спостережуваних асоціацій. Тому в цьому сенсі ви правильні --- нам потрібно більше припущень щодо , щоб вкласти "більше структури" в проблему та ідентифікувати структурні параметри з даними спостереження.yxϵβ

Бічна примітка

Варто згадати більшість підручників з економетрики заплутаним, коли мова йде про різницю між регресією та структурними рівняннями та їх значенням. Це підтверджено останнім часом. Ви можете ознайомитися з документом Чена і Перла тут , а також розширене опитування Кріса Олда . Грін - одна з розглянутих книг.


Дякую, це відповідь, яку я шукав. Отже, коли ви говорите, що припущення про лінійність є структурним припущенням, то що це стосується саме причинного зв'язку між і ? Ще може бути причинно-наслідковий зв’язок правильним? Тільки те, що прямий причинно-наслідковий зв’язок від до є лінійним, це? Ще може бути сильно нелінійний причинний вплив на через ? ϵxxyxy ϵ
user56834

1
@ Programmer2134 це ще одна область , де підручники по економетрики недбалі, ви знайдете мало посилань на пряме / непряме вплив, посередництво і т.д. Якщо рівняння є структурним, то ми можемо мати робоче визначення структурного обурення в вигляді різниці с очікуваної причинний ефект , тобто . Отже, в цьому сенсі, структурний не "викликаний» . Однак, це нічого не говорить нам про асоціацію з і , тому що вони можуть мати загальні причини. X ϵ : = y - E [ Y | d o ( X ) ] = y - X β ϵ X ϵ XyXϵ:=yE[Y|do(X)]=yXβϵXϵX
Карлос Сінеллі

@ Programmer2134, до речі, ваші занепокоєння на правильному шляху, я думаю, що Перл-буквар щодо причинного висновку може бути цікавим супутником для Гріна!
Карлос Сінеллі

Між іншим, я почав читати «Першопричинність: моделі, міркування та умовиводи» Перла певний час тому. Я вважав це дуже цікавим, але для мене це було дещо абстрактно. Я не вийшов за межі глави 2. Як ви вважаєте, чи буде «грунтовка на причинному висновку» краще підійде? (тобто впроваджуйте поняття більш інтуїтивно).
користувач56834

1
@ColorStatistics ви можете використовувати регресію для прогнозування, звичайно, але тоді припущення про екзогенність не грає жодної ролі. Це те, що OP почав підозрювати сам, запитуючи, чому Грін не просто написав припущення, як є лінійним. E(Y|x)
Карлос Сінеллі

0

відредаговано після коментарів ОП та Метью Друрі

Щоб відповісти на це запитання, я припускаю, що Грін та ОП мають на увазі таке визначення лінійності: Лінійність означає, що для кожного одиничного збільшення цього прогноктора результат збільшується на бета ( ), де завгодно в діапазоні можливих значень предиктора відбувається це збільшення на одну одиницю. Тобто функцією є а не, наприклад, або . Далі це припущення орієнтоване на бета-версії і, таким чином, застосовується до предикторів (також незалежних змінних). y = f ( x ) y = a + b x y = a + b x 2 y = a + s i n ( x )βy=f(x)y=a+bxy=a+bx2y=a+sin(x)

Очікування залишків, обумовлених моделлю - це щось інше. Так, це правда, що математика за лінійною регресією визначає / намагається визначити . Однак це зазвичай встановлюється у всьому діапазоні вбудованих / передбачуваних значень для . Якщо ви подивитеся на конкретні частини лінійного предиктора та передбачуване значення , то ви можете помітити гетероседастичність (області, де варіація більша, ніж деінде), або області, де . Нелінійна асоціація між 'і може бути причиною цього, але це не єдина причина гетероскедастичності абоE(ϵ|X)E(ϵ|X)=0yyϵE(ϵ|X)0xyE(ϵ|X)0 може статися (див., наприклад, відсутність упередженості упередженості).

З коментарів: ОП зазначає, що "припущення про лінійність жодним чином не обмежує модель, враховуючи, що епсилон є довільним і може бути будь-якою функцією XX", з якою я погодився б. Я думаю, що це стає зрозумілим завдяки лінійним регресіям, здатним підходити до будь-яких даних, порушено чи ні припущення про лінійність чи ні. Я спекулюю тут, але це може бути причиною того, що Грін вирішив зберегти помилку у формулі - збереження для подальшого - щоб позначити це, припускаючи лінійність, (а не очікувана ) можна визначити на основі але зберігає деяку помилку , незалежно від того, які значенняϵE(ϵ|X)=0yyXϵϵзаймає. Я можу лише сподіватися, що він пізніше перейде до констатації відповідності .E(ϵ|X)=0

Якщо коротко (правда, не прочитавши повністю книги Гріна і не перевіривши його аргументацію):

  1. Грін, ймовірно, посилається на те, що бета є постійною для всього діапазону провісника (акцент повинен бути зроблений на бета-версію в рівняннях або ;y=Xβ+ϵE(ϵ|X)=Xβ
  2. Припущення про лінійність накладає певну структуру на модель. Однак ви повинні зауважити, що перетворення чи доповнення, такі як сплайни до моделювання, можуть зробити нелінійні асоціації відповідними рамці лінійної регресії.

3
Це корисно, але заклик до наступності не потрібен ні в якому сенсі. Машина працює так само, якщо просто заснований на прогнозовах. X(0,1)
Нік Кокс

1
Ви писали , але я думаю , що ви мали в виду ,. f(y)f(x)
Нік Кокс

@NickCox Я редагував ці моменти.
IWS

1
Що ти маєш на увазі під нормальністю? Якщо ви маєте на увазі нормальність, то це неправильно, оскільки епсилон не повинен бути нормальним, щоб він мав умовне очікування нуля. Але ти маєш на увазі щось інше? Крім того, так, бета вважається постійною для всіх спостережень. І що ви вважаєте неправильним у моєму аргументі, що припущення про лінійність жодним чином не обмежує модель, враховуючи, що епсилон є довільним і може бути будь-якою функцією ? Зауважте, що я знаю, що таке гетероскедастичність і що лінійність означає лінійну в параметрах, а не в змінних. X
користувач56834

3
Я не згоден з цим. Припущення очікування не пов'язане з нормальністю, але абсолютно необхідне, щоб мати сенс структурного припущення про лінійність. В іншому випадку, як зазначає оп, припущення про лінійність є безглуздим. Припущення про нормальність - це зовсім інший звір, і його часто не потрібно.
Метью Друрі

-1

Відповідь вище мене трохи збентежив, отже, я ще раз спробую. Я думаю, що питання насправді не про «класичну» лінійну регресію, а про стиль цього конкретного джерела. Про класичну регресійну частину:

Однак припущення про лінійність саме по собі не наводить жодної структури нашої моделі

Це абсолютно правильно. Як ви вже заявляли, може також знищити лінійне відношення і скласти щось абсолютно незалежне від щоб ми взагалі не змогли обчислити жодну модель.ϵX

Хіба Грін неохайно? Чи повинен він насправді записати:E(y|X)=Xβ

Я не хочу відповідати на перше запитання, але дозвольте підсумувати припущення, необхідні для звичайної лінійної регресії:

Припустимо, що ви спостерігаєте (вам дано) точки даних та для . Вам потрібно припустити, що дані ви спостерігали, походять від незалежно однаково розподілених випадкових змінних таких, що ...xiRdyiRi=1,...,n(xi,yi)(Xi,Yi)

  1. Існує фіксований (незалежний від ) такий, що для всіх а випадкові змінні такі, щоiβRdYi=βXi+ϵiiϵi

  2. є IID , а також і поширюється як ( повинні бути незалежні від , а)ϵiϵiN(0,σ)σi

  3. Для і змінні мають загальну щільність, тобто одна випадкова величина має щільністьX=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y

Тепер ви можете бігти по звичайному шляху і обчислювати

fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd)nexp(i=1n(yiβxi)22σ)

так що завдяки звичайній 'подвійності' між машинним навчанням (мінімізація функцій помилок) та теорією ймовірностей (максимізація ймовірностей) ви максимізуєте в що насправді дає вам звичайні речі "RMSE".βlogfY|X(y|x)β

Тепер, як сказано: Якщо автор книги, яку ви цитуєте, хоче зробити це (якщо ви хочете коли-небудь мати можливість обчислити "найкращу" регресійну лінію в базовій установці), то так, він повинен зробіть це припущення щодо нормальності десь у книзі.ϵ

Зараз є різні можливості:

  • Він не припускає цього припущення у книзі. Тоді це помилка в книзі.

  • Він записує це у вигляді "глобального" зауваження на кшталт "коли я пишу тоді звичайно розподіляється із середнім нулем, якщо не вказано інше". Тоді ІМХО - це поганий стиль, оскільки він викликає саме плутанину, яку ти відчуваєш зараз. Тому я схильний писати припущення в укороченому вигляді в кожній теоремі. Тільки тоді кожен будівельний блок можна розглядати чисто по-своєму.+ϵϵ

    • Він записує це впритул до тієї частини, яку ви цитуєте, і ви / ми просто не помітили цього (також можливість :-))

Однак, також у суворому математичному сенсі, звичайна помилка є чимось канонічним (розподіл із найвищою ентропією [як тільки буде виправлена ​​дисперсія], отже, створюючи найсильніші моделі), так що деякі автори прагнуть пропустити це припущення, але, тим не менш, використовують. . Формально ви абсолютно праві: вони використовують математику «неправильно». Всякий раз, коли вони хочуть придумати рівняння для щільності як зазначено вище, тоді вони повинні знати досить добре, інакше у вас просто є властивості його пролітати навколо у кожному розумному рівнянні, яке ви намагаєтесь записати . ϵfY|Xϵ


3
помилки не потрібно нормально поширювати, щоб використовувати OLS.
користувач56834

(-1) Помилки не потрібно нормально поширювати. Насправді вони навіть не повинні бути незалежними або однаково розподіленими, щоб оцінка параметрів була неупередженою і щоб тести були послідовними. Ваші набагато більш суворі характеристики необхідні, щоб OLS був точним тестом.
АдамО

@AdamO: А? То як же тоді обчислити ймовірність? А точніше ... якщо вас попросять реалізувати лінійну регресію: яку регресійну лінію ви виберете, якщо помилка нормально не поширюється і одинична не є незалежною? ϵi
Фабіан Вернер

1
@FabianWerner мій вибір моделі залежить від питання, яке потрібно задати. Лінійна регресія оцінює тенденцію першого порядку в наборі даних, "велике правило", що пов'язує різницю X з різницею Y. Якщо помилки зазвичай не розподіляються, CLT Lindeberg Feller гарантує, що CI і PI є приблизно правильними навіть у дуже малих зразках. Якщо помилки не є незалежними (а структура залежності невідома), оцінки не є упередженими, хоча ПЕ можуть бути неправильними. Оцінка помилки сендвіч полегшує цю проблему.
АдамО
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.