Які є найпоширеніші помилки щодо лінійної регресії?


70

Мені цікаво, для тих із вас, хто має великий досвід співпраці з іншими дослідниками, які найпоширеніші помилки щодо лінійної регресії, з якими ви стикаєтесь?

Я думаю, може бути корисною вправою, щоб заздалегідь подумати про поширені помилки, щоб це зробити

  1. Передбачте помилки людей і зможете успішно сформулювати, чому деякі неправильні уявлення невірні

  2. Зрозумійте, чи я сам домагаюся якихось помилок!

Кілька основних, про які я можу придумати:

Незалежні / залежні змінні повинні бути нормально розподілені

Змінні повинні бути стандартизовані для точного тлумачення

Будь-які інші?

Усі відповіді вітаються.


5
Це, мабуть, має бути зроблено CW, оскільки воно пропонує список можливостей, і важко буде сказати, що "об'єктивна відповідь" є об'єктивно.
gung

Дуже багато людей, яких я знаю, все ще наполягають на виконанні лінеаризації своїх даних і залишають це при цьому, навіть коли обчислювальне середовище, яке вони використовують, має гарну підтримку нелінійної регресії. (Лінеаризація, звичайно, корисна як вихідні точки для нелінійних припадків, але ці люди навіть цього не усвідомлюють.)
JM не є статистиком

1
@gung: Чи спільність Wiki все ще є річчю? Здебільшого застаріла мережа , CW ніколи насправді не стосувався надання маргінальних запитань із великим списком про вихід з тюремної картки, або пограбування репутації людей, яку вони могли б інакше заробити, якби питання було на тему в першу чергу. Єдиний спосіб ви навіть можете поставити це питання більше, якщо ви попросите модератора це зробити.
Роберт Харві

1
Якби Бог зробив світ лінійним, не було б нелінійної регресії.
Марк Л. Стоун

1
@RobertHarvey: Так, це все ще дуже важлива річ у CrossValided (на мою думку, на жаль). У нас були кілька гострих мета-дискусій щодо цього ( наприклад, цього ), але поточний статус-кво полягає в тому, що статус CW застосовується з усіх питань, що ґрунтуються на думці чи великому списку, які розглядаються на тему, достатньо, щоб залишатися відкритими.
амеба

Відповіді:


38

Помилкова передумова: A означає, що між DV та IV немає міцного зв’язку. β^0
Нелінійних функціональних зв'язків багато, і все ж дані, отримані багатьма такими співвідношеннями, часто створюють майже нульові нахили, якщо припускати, що зв'язок повинен бути лінійним або навіть приблизно лінійним.

Так само в іншому помилковому передумові дослідники часто припускають - можливо, тому що багато вступних регресійних підручників навчають - що один "тести на нелінійність", будуючи ряд регресій DV на поліноміальних розширеннях IV (наприклад, , далі , далі відYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+εтощо). Подібно до того, як пряма лінія не може добре представляти нелінійну функціональну залежність між DV та IV, парабола не може добре представляти нескінченну кількість нелінійних зв’язків (наприклад, синусоїди, циклоїди, ступінчасті функції, ефекти насичення, s-криві та ін. Ad infinitum ). Натомість можна скористатись регресійним підходом, який не передбачає особливої ​​функціональної форми (наприклад, згладжувачі бігових ліній, GAM тощо).

Третя помилкова передумова в тому , що збільшення числа оцінюваних параметрів обов'язково призводить до втрати статистичної потужності. Це може бути помилковим, коли справжній зв'язок нелінійний і вимагає декількох параметрів для оцінки (наприклад, функція "зламана палиця" вимагає не тільки умов перехоплення та нахилу прямої лінії, але вимагає точки, в якій змінюється нахил і скільки нахил змінюється на оцінки також): залишки неправильно визначеної моделі (наприклад, прямої лінії) можуть зростати досить великими (відносно правильно заданого функціонального відношення), що призводить до зниження ймовірності відхилення та більш широких інтервалів довіри та інтервалів прогнозування (на додаток до упереджених оцінок) .


4
(+1) Суперечки: (1) Я не думаю, що навіть вступні тексти означають, що всі криві є поліноміальними функціями, а тому, що їх можна досить наблизити в заданому діапазоні за допомогою поліномних функцій. Таким чином, вони потрапляють до класу "регресійних підходів, які не приймають особливої ​​функціональної форми", керуючись "гіперпараметром", що визначає хиткість: проміжок для льосу, ні. вузли для регресії на сплайн-основі, ступінь регресії на поліномічній основі. (Я не махаю прапором для поліномів - добре відомо, що вони, як правило, махають на кінцях більше, ніж нам би хотілося -, ...
Scortchi

2
... просто надаючи їм належне.) (2) Синусоїд цілком може бути таким, як такий, у межах лінійної моделі; ефект насичення за допомогою нелінійної моделі (прямокутна гіпербола, скажімо); & c. Звичайно, ви не сказали інакше, але, можливо, варто зазначити, що якщо ви знаєте, що існує цикл або асимптота, застосування цих обмежень у вашій моделі буде корисним.
Scortchi

2
@Scortchi Я не міг погодитися більше! (Дійсно, зважаючи на нескінченну кількість многочленів, будь-яка функція може бути ідеально представлена.) Націлився на стислість. :)
Олексій

2
@Alexis Спробуйте наблизити функцію бази 13 Конвея до поліномів. :)
Секрет Соломонофа

1
Або ...χQ
Стефан Коласа

22

Дуже часто припускати, що лише дані підлягають помилці вимірювання (або принаймні, що це єдина помилка, яку ми врахуємо). Але це ігнорує можливість - і наслідки - помилки в вимірюваннях. Це може бути особливо гострим у спостережних дослідженнях, коли змінні не знаходяться під експериментальним контролем.yxx

Розведення регресії або ослаблення регресії - це явище, визнане Spearman (1904), згідно з яким оцінений нахил регресії у простому лінійному регресії зміщується до нуля наявністю похибки вимірювання в незалежній змінній. Припустимо, що справжній нахил є позитивним - ефект тремтіннякоординатточок(можливо, найпростіше візуалізується як "розмивання" точок по горизонталі) полягає в тому, щоб лінія регресії була менш крутою. Інтуїтивно зрозуміло, що точки з великимтепер, швидше, так і є через позитивну похибку вимірювання, тоді якзначенняшвидше відображає справжнє (без помилок) значення, а значить, буде нижчим, ніж істинна лінія буде для спостережуваногоxxyxx .

У більш складних моделях похибка вимірювання в змінних може дати більш складні ефекти на оцінку параметрів. У моделях змінних є помилки, які враховують таку помилку. Спірман запропонував поправочний коефіцієнт для розслаблення коефіцієнтів кореляції біваріантів та інші коригуючі фактори були розроблені для більш складних ситуацій. Однак такі виправлення можуть бути важкими - особливо у випадку багатоваріантності та в присутності плутанини - і може бути суперечливим, чи виправлення є справжнім поліпшенням (див., Наприклад, Smith and Phillips (1996)).x

Тому я вважаю , що це два омани за ціною одного - з одного боку , це є помилкою думати , що шлях ми пишемо означає «все помилки в » і ігнорувати дуже фізично реальна можливість помилок вимірювання в незалежних змінних. З іншого боку, може бути недоцільним сліпо застосовувати "виправлення" для помилки вимірювання у всіх таких ситуаціях, як відповідь на коліна (хоча, в першу чергу, може бути корисно вжити заходів для зменшення помилки вимірювання) .y=Xβ+εy

(Я, мабуть, я також повинен посилатися на деякі інші поширені моделі помилок у змінних, у все більш загальному порядку: ортогональна регресія , регресія Демінга та загальні найменші квадрати .)

Список літератури


На цій замітці: це одна з причин використання методики, яку називають або "загалом найменших квадратів", або "ортогональною регресією" (залежно від посилання, яке ви читаєте); це значно складніше, ніж найменші прості квадрати, але це варто зробити, якщо всі ваші точки забруднені помилкою.
JM не є статистиком

@JM Спасибі - так, насправді я спочатку мав намір покластись на посилання на TLS, але мене відволікали на статті Сміта та Філіпса!
Срібляста рибка

2
+1 Чудове доповнення до цієї теми. У своїх роботах я часто розглядав моделі EIV. Однак, крім їхньої складності чи опори на знання "коефіцієнтів помилок", слід розглянути ще більш концептуальне питання: Багато регресій, особливо при контрольованому навчанні чи прогнозуванні, хочуть пов'язати спостережуваних прогнозів із спостережуваними результатами. Моделі EIV, з іншого боку, намагаються визначити базовий взаємозв'язок між середнім прогноктором та середньою реакцією ... дещо інше питання.

2
Отже, те, що можна назвати "розбавленням" "справжньої" регресії (в науковому контексті), було б названо "відсутністю прогностичної корисності" або щось подібне в контексті прогнозування.

21

Існують деякі стандартні непорозуміння, що застосовуються в цьому контексті, а також інші статистичні контексти: наприклад, значення -значень, неправильно випливає причинність тощо. p

Пару непорозумінь, які, на мою думку, стосуються багаторазового регресу, є:

  1. Думаючи, що змінна з більшим оціненим коефіцієнтом та / або меншим значенням "важливіша". p
  2. Думаючи, що додавання більшої кількості змінних до моделі наближає вас до істини. Наприклад, нахил від простої регресії на може не бути справжньою прямою залежністю між і , але якщо я додаю змінні , цей коефіцієнт буде кращим представленням справжнього зв'язку, і якщо я додаю , це буде навіть краще за це. YXXYZ1,,Z5Z6,,Z20

12
Хороший матеріал. Ця відповідь може бути ще кориснішою, якщо б вона пояснила, чому двоє помиляються і що слід робити замість цього?
DW

14

Я б сказав, що перший, який ви перераховуєте, - це, мабуть, найпоширеніший - і, можливо, найбільш широко вчений таким чином - з речей, які, очевидно, вважаються неправильними, але ось деякі інші, які менш зрозумілі в деяких ситуаціях ( чи дійсно вони застосовуються), але це може вплинути на ще більше аналізів, а можливо, і більш серйозно. Вони часто просто не згадуються при введенні регресу.

  • Трактування як випадкових вибірок із сукупності, що представляють інтерес, спостережень, які не можуть бути близькими до репрезентативних (не кажучи вже про випадкові вибірки). [Деякі дослідження замість цього можна розглядати як щось наближене до зручності зразків]

  • Маючи дані спостереження, просто ігноруючи наслідки відмови від важливих драйверів процесу, які, безумовно, зміщують оцінки коефіцієнтів включених змінних (у багатьох випадках навіть, ймовірно, змінюючи їхню ознаку), не намагаючись розглянути способи вирішення з ними (чи то через незнання проблеми, чи просто не знаючи, що щось можна зробити). [У деяких дослідницьких областях ця проблема є більшою мірою, ніж в інших, чи то через тип даних, які збираються, чи тому, що люди в деяких областях застосування, швидше за все, вчили про цю проблему.]

  • Помилкова регресія (в основному з даними, зібраними з часом). [Навіть коли люди знають, що це трапляється, існує ще одне поширене неправильне уявлення, що достатньо просто розмежування на передбачуване стаціонарне, щоб повністю уникнути проблеми.]

Існує багато інших, про які можна було б згадати, звичайно (наприклад, трактування як незалежних даних, які майже напевно будуть послідовно співвіднесені або навіть інтегровані, може бути настільки ж поширеними, наприклад).

Ви можете помітити, що спостережливі дослідження даних, зібраних з часом, можуть потрапити відразу на все це ... все ж таке дослідження дуже поширене в багатьох областях досліджень, де регресія є стандартним інструментом. Те, як вони можуть потрапити до публікації, коли жоден рецензент чи редактор не знає про принаймні одного з них і, принаймні, вимагає певного рівня відмови у висновках, продовжує мене хвилювати.

Статистика загрожує проблемами невідтворюваних результатів при роботі з досить ретельно контрольованими експериментами (у поєднанні з, можливо, не так ретельно контрольованими аналізами), тож як тільки один крок вийде за ці межі, наскільки гіршою повинна бути ситуація відтворення?


6
Тісно пов'язане з деякими вашими пунктами може бути думкою, що "лише дані підлягають помилці вимірювання" (або, принаймні, "це єдина помилка, яку ми повинні врахувати"). Не впевнений, чи це заслуговує на взуття взуття, але, безумовно, дуже часто ігнорувати можливість - і наслідки - випадкової помилки у змінних . yx
Срібна рибка

2
@Silverfish Я загалом з вами згоден.
Марк Л. Стоун

@Silverfish це CW, тому ви можете не зайвим чином редагувати подібне додаток.
Glen_b

@Silverfish є причина, що я вже не додав його сам, коли ви згадали про це ... Я думаю, що це, мабуть, варта нової відповіді
Glen_b

12

Я, мабуть, не назвав би ці помилки, але, можливо, загальні точки плутанини / перерви, а в деяких випадках проблеми, про які дослідники можуть не знати.

  • Мультиколінеарність (у тому числі у випадку з величиною змінних, ніж точки даних)
  • Гетероскедастичність
  • Чи не залежать від значення незалежних змінних шум
  • Наскільки масштабування (чи не масштабування) впливає на інтерпретацію коефіцієнтів
  • Як поводитися з даними з декількох предметів
  • Як боротися з послідовними кореляціями (наприклад, часовий ряд)

З боку помилкового уявлення про речі:

  • Що означає лінійність (наприклад, це нелінійна wrt , а лінійна wrt ваги).y=ax2+bx+cx
  • Цей «регресія» означає звичайні найменші квадрати або лінійну регресію
  • Цей низький / високий вага обов'язково передбачає слабкі / міцні зв’язки із залежною змінною
  • Ця залежність між залежною та незалежною змінними обов'язково може бути зведена до парних залежностей.
  • Ця висока придатність на тренувальному наборі передбачає хорошу модель (тобто нехтування переодяганням)

7

З мого досвіду, студенти часто сприймають думку про те, що помилки в квадраті (або регресія OLS) є по суті належними, точними та загалом хорошими справами для використання або навіть без альтернативи. Я часто бачив рекламу OLS разом із зауваженнями про те, що він "надає більшої ваги більш екстремальним / девіантним спостереженням", і більшу частину часу принаймні мається на увазі, що це бажана властивість. Це поняття може бути змінено пізніше, коли буде застосовано поводження з вихованими людьми та надійні підходи, але в цей момент шкода робиться. Можливо, широке використання помилок у квадраті історично більше пов'язане з їх математичною зручністю, ніж із деяким природним законом реальних витрат на помилки.

Загалом, більший акцент можна зробити на розумінні того, що вибір функції помилок є дещо довільним. В ідеалі будь-який вибір штрафу в алгоритмі повинен керуватися відповідною функцією витрат у реальному масштабі, пов'язаною з потенційною помилкою (тобто, використовуючи рамки прийняття рішень). Чому б спочатку не встановити цей принцип, а потім подивитися, наскільки добре ми можемо зробити?


2
Вибір також залежить від додатків. OLS є корисним для алгебраїчних, підходящих до осі y, але менше для геометричних застосувань, де загальні найменші квадрати (або якась інша функція витрат на основі ортогональної відстані) мають більше сенсу.
Віллі Вілер

4

Ще одна поширена помилкова думка полягає в тому, що термін помилки (або порушення в економетричній мові) і залишки - це одне і те ж.

Термін помилки є випадковою змінною в істинній моделі або в процесі генерування даних , і зазвичай вважається, що вона відповідає певному розподілу, тоді як залишки - це відхилення спостережуваних даних від пристосованої моделі. Таким чином, залишки можна вважати оцінками помилок.


Сподіваюся, що люди будуть зацікавлені в поясненні того, чому це має значення, або в яких випадках.
rolando2

4

Найпоширеніша помилка, з якою я стикаюся, полягає в тому, що лінійна регресія передбачає нормальність помилок. Це не так. Нормальність корисна у зв'язку з деякими аспектами лінійної регресії, наприклад, малі властивості вибірки, такі як довірчі межі коефіцієнтів. Навіть для цих речей є асимптотичні значення, доступні для не нормальних розподілів.

Другий найпоширеніший - це скупчення плутанини щодо ендогенності, наприклад, не бути обережними з циклами зворотного зв'язку. Якщо є зворотний зв'язок від Y назад до X, це проблема.


4

Помилка, яку я зробив, - це припустити симетричність X і Y в OLS. Наприклад, якщо я припускаю лінійне відношення з a і b, задане моїм програмним забезпеченням за допомогою OLS, то я вважаю, що припускаючи, що X як функція Y, дасть використання OLS коефіцієнти: це неправильно.

Y=aX+b
X=1aYba

Можливо, це також пов’язано з різницею між OLS та загальним найменшим квадратним чи першим головним компонентом.


3

Я часто бачив помилкове уявлення про застосування лінійної регресії в певних випадках використання на практиці.

Наприклад, скажімо, що змінна, яка нас цікавить, - це чисельність (наприклад, відвідувачів на веб-сайті) або співвідношення чогось (наприклад: коефіцієнти конверсії). У таких випадках змінна може бути краще змодельована за допомогою функцій зв’язку, таких як Пуассон (рахунки), Бета (співвідношення) тощо. Отже, використання узагальненої моделі з більш відповідною функцією зв'язку є більш підходящим. Але тільки тому, що змінна не є категоричною, я бачив людей, починаючи з простої лінійної регресії (функція зв'язку = ідентичність). Навіть якщо ми нехтуємо наслідками точності, припущення щодо моделювання тут є проблемою.


2

Ось я думаю, що дослідники часто не помічають:

  • Змінна взаємодія: дослідники часто розглядають поодинокі бета-файли окремих прогнозів і часто навіть не вказують терміни взаємодії. Але в реальному світі речі взаємодіють. Без належного уточнення всіх можливих умов взаємодії ви не знаєте, як ваші «передбачувачі» беруть участь у формуванні результату. І якщо ви хочете бути старанними та уточнити всі взаємодії, кількість прогнозів вибухне. З моїх розрахунків ви можете дослідити лише 4 змінні та їх взаємодію зі 100 предметами. Якщо ви додасте ще одну змінну, ви можете легко доповнити її.

0

Інша поширена помилкова думка полягає в тому, що оцінки (встановлені значення) не є інваріантними для перетворень, наприклад

у я = х Т я р

f(y^i)f(yi)^
в цілому, де , встановлене значення регресії на основі на оцінені коефіцієнти регресії.y^i=xiTβ^

Якщо ви хочете, щоб монотонні функції не були обов'язково лінійними, то вам потрібно кількісна регресія.f()

Вищена рівність у лінійній регресії для лінійних функцій, але для нелінійних функцій (наприклад, ) це не буде виконано. Однак це буде справедливо для будь-якої монотонної функції в квантильній регресії.log()

Це з’являється весь час, коли ви робите журнал перетворення своїх даних, підганяєте лінійну регресію, потім експонуєте пристосоване значення і люди читають це як регресію. Це не означає, це медіана (якщо речі справді розподіляються звичайно в журналі).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.