Зрозуміло, що проблема добре підходить для лінійної регресії


12

Я вивчаю лінійну регресію, використовуючи Вступ до лінійного регресійного аналізу Монтгомері, Пека та Вінінга . Я хотів би вибрати проект аналізу даних.

Я наївно вважаю, що лінійна регресія підходить лише тоді, коли можна підозрювати, що між пояснювальними змінними та змінною відповіді існують лінійні функціональні зв'язки. Але, здається, не багато додатків у реальному світі відповідають цьому критерію. Однак лінійна регресія настільки поширена.

Про які аспекти проекту думає досвідчений статистик, якби вони опинилися в моєму взутті, шукаючи питання + дані, які добре підходять для лінійної регресії.


3
Я ціную, що ви вивчаєте техніку і хочете знати, де вона буде працювати. Але для досвідчених статистиків (і статистично налаштованих вчених) ситуація зовсім навпаки: є проблема і дані, і тоді питання полягає в тому, які моделі та методи найкращий вибір. Ви побачите, що лінійна регресія вперше зустрічається - це лише один аромат; з досвідом люди із задоволенням переходять до пуассонової регресії, логітичної регресії тощо. Навіть лінійність параметрів легко поєднується з більш загальними структурами.
Нік Кокс

і звичайно, часові ряди моделей, коли спостереження потенційно автокорельовані
IrishStat

3
Насправді лінійні моделі використовуються ліворуч та праворуч навіть тоді, коли ми знаємо, що відносини нелінійні. Подумайте про лінійну модель як наближення першого порядку, свого роду багатоваріантне розширення Тейлора.
Аксакал

Відповіді:


12

Я наївно вважаю, що лінійна регресія підходить лише тоді, коли можна підозрювати, що між пояснювальними змінними та змінною відповіді існують лінійні функціональні зв'язки. Але, здається, не багато додатків у реальному світі відповідають цьому критерію.

Це неправильне розуміння того, що є "лінійним" у "лінійній регресії".

Це не стосунок між та 's, який вважається лінійною формою (хоча всі елементарні приклади можуть вас ввести в оману).yx

"Лінійна" відноситься до лінійної моделі в параметрах, і нелінійні співвідношення між та деяким можна, безумовно, змоделювати таким чином.yx

Там приклад з одним провісником тут , але криволінійні моделі частіше встановлені в якості множинної регресії, де кілька функцій провісника (х змінного, незалежні змінного) можуть мати місце в регресії, і це дозволяє більшу гнучкість. Це включає, наприклад, поліноміальну регресію. Дивіться деякі дискусії та приклади тут .

Однак, якщо допустити той факт, що предиктори можуть бути перетворені, щоб відповідати вигнутим співвідношенням, лінійність параметрів також відповідає лінійності в цих трансформованих прогнозах.

Крім того, багато проблем близькі до лінійних (принаймні, за діапазон значень, що розглядаються), або настільки галасливі, що будь-яка легка кривизна не помітна, і може зробитися безліч простих моделей для збільшення або зменшення відносин - і в такому випадку лінійний вибір може бути і адекватним, і найпростішим, щоб підходити і розуміти.

Про які аспекти проекту думає досвідчений статистик, якби вони опинилися в моєму взутті, шукаючи питання + дані, які добре підходять для лінійної регресії.

Єдиний раз, коли я можу шукати проблему, щоб застосувати регресію, коли б я намагався знайти хороший приклад для навчання. Перебуваючи фактично в положенні робити статистичну роботу (а не пояснювати її чи викладати її), я вибираю методологію відповідно до питання, що цікавить (та характеристику даних), а не вибираю дані відповідно до методу.

Уявіть, наприклад, столяра. Тесляр не бере рукоятку і каже "на чому я можу це використати ?". Швидше тесляр має вирішити проблему, і при розгляді характеристик проблеми ("що я намагаюсь зробити?" Та "яку деревину я використовую?" І так далі ...) можуть бути конкретні інструменти релевантніші за інші. Іноді інструменти, які доступні , можуть обмежувати або направляти вибір (якщо ви не маєте в скобель, ви , можливо , доведеться робити з чим - то іншим ... або ви можете просто піти купити скобель).

Однак припустимо, що у вас є кишеньковий статистик, який допомагає вам , і ви намагаєтеся знайти проблему, відповідну лінійній регресії. Тоді вони можуть запропонувати вам розглянути різні припущення щодо регресії та коли вони мають значення. Я згадаю кілька речей.

Якщо ви просто зацікавлені у встановленні відносин між y та деяким однозначним (можливо, трансформованим) x, більшість припущень для вас не обов'язково мають значення (теорема Гаусса-Маркова може мати певне значення). Ви шукаєте випадок, коли ви думаєте, що приблизно лінійний у для деякого - відомого - (тобто передбачає, що ми знаємо функціональну форму відносин, яку ми хочемо) . Пишучи , нам потрібно, щоб було принаймні приблизно істинним.E(y|g(x))g(x)gx=xE(y|x)=a+bx

Якщо ви можете скористатися множинною регресією, навіть це не є особливо важливою проблемою, оскільки можна використовувати (наприклад) кубічні регресійні сплайси, щоб відповідати досить загальним відносинам.

Я б пропонував вам уникати даних із часом, якщо ви не розумієте проблем із помилковою регресією; палиця з проблемами поперечного перерізу.

Якщо ви маєте справу лише з одним я сподіваюся, що ви хочете безперервний, а не категоричний .xx

Ви не хочете мати помилку вимірювання в якщо ви не зацікавлені в умові очікування вимірюваного значення.x

Якщо ви зацікавлені в тестуванні гіпотез, довірчих інтервалів або інтервалів прогнозування, можливо, більшість звичайних регресійних припущень можуть мати значення (але є альтернативи, які не роблять цих припущень, а в деяких випадках принаймні деякі припущення не можуть все одно бути особливо важливим).

Отож, хоча б спробувати бути в курсі, це те, що ці припущення зроблені при виведенні інфекційних процедур, які ви використовуєте, і наскільки вони можуть бути важливими для вашої конкретної проблеми (як приклад, під час виконання звичайних тестів на гіпотези, нормальність - це припущення, але для великих зразків це припущення може не бути важливим; з іншого боку, припущення про постійну дисперсію може бути більшою проблемою).

Є ряд публікацій, в яких обговорюються припущення про регресію, а також деякі публікації, які обговорюють, коли їх взагалі потрібно зробити, і скільки вони можуть мати значення, і навіть про те, в якому порядку їх розглядати.


Гарна відповідь, але я думаю, що це не відповідає на питання повністю. Про які аспекти проекту думав би досвідчений статистик, якби вони опинилися в моєму взутті, шукаючи питання + дані, які добре підходять для лінійної регресії. залишається без відповіді.
Dawny33

@ Dawny33 я, безумовно, маю намір додати більше до цього пізніше - деякі речі з’явились, коли я друкував те, що заважало мені написати повну відповідь, яку я спочатку передбачав; Я встиг лише закінчити речення, на якому я був, і тепер, можливо, не повернуся до нього на день-два. Дійсно, я навіть не встиг виправити всі друкарські помилки. (Тим часом, ви не повинні вагатися з публікацією відповіді.) З іншого боку, вказуючи на те, що передумова цього питання є помилковою, це може призвести до того, що ОП хоче задати різні речі, ніж вони спочатку передбачали (часто це трапляється, коли центральне приміщення не вдається)
Glen_b -Встановіть Моніку

Наприклад, я припускаю, що новим питанням, яке може виникнути, було б "у вас є приклад?".
Glen_b -Встановіть Моніку

@Glen_b дякую. "Лінійна" відноситься до лінійної моделі в параметрах . Вибачте, якщо я неправильно написав, я не мав на увазі інакше. Ключове слово було функціональним .
чванчики

@Glen_b вони можуть запропонувати вам розглянути різні припущення щодо регресії . Знову домовились. Я не пояснював це, але мій Q більше стосується знань домену. Мені цікаво, що досвідчений статистик шукав би в системі, яку розглядають для аналізу ЛР, тому моя наївна пропозиція існувати регресорами, які лінійно і функціонально пов'язані з відповіддю, і одночасне відношення до відповіді яких є адитивними.
зграйники

4

На додаток до відмінних відповідей вище, існують загальні вимоги до лінійної моделі досить добре працювати, в основному , пов'язані з . потрібно добре поводитись у сенсі відсутності екстремальних значень, які надмірно впливатимуть на відповідність моделі. По-друге, потрібно, на щастя, перетворити так, щоб модель мала надію на добавку і таким чином, що залишки будуть гауссовими (якщо робити висновки). Аналітики часто помиляються, намагаючись більше 2 перетворень задовольнити припущення моделей, що спотворює остаточний висновок. Більш простий спосіб сказати це - нам потрібно вже зрозуміти розподіл (умовноY Y Y Y XYYYYYX) добре. За багаторічний досвід ви побачите, що певні змінні, такі як артеріальний тиск, як правило, добре поводяться в лінійній моделі, а інші (наприклад, вимірювання хімії крові) цього не роблять.

Все це на відміну від напівпараметричних моделей, які тільки припускають, що є порядковими, повністю стійкі до дивних значень, і не хвилюється, як перетворюється. Моделі пропорційних шансів та пропорційних небезпек - це два приклади класів моделей.YYY


Дякуємо, що вказали на аспект доброї поведінки. Я думав про перетворення регресорів, але не про змінну реакції. Однак зараз я бачу, як пізніше можна було б використовувати для переформатування розподілу залишків. Дякуємо, що заповнили частину картини. Дуже корисний пост.
чванчики

3

@Glen_b дав дуже хорошу відповідь, але, як зазначалося, так і не дійшов до кінця.

Отже, щодо вашого останнього запитання:

Думаю, досвідчений статистик не став би цього питання. Як зазначає Глен, проблема диктує інструменти для використання, а не навпаки.

Якби я намагався освоїти таку техніку, як лінійна регресія, я б використав уже відпрацьовані приклади - але ті, які мали реальні дані, а не складали дані, призначені для того, щоб полегшити справи. Книга, наприклад, регресійне моделювання за прикладом, може дати керівництво.

Однак одним із перших етапів розгляду проблеми регресії є вирішення, чи є лінійна регресія насправді підходящою.


Думаю, досвідчений статистик не став би цього питання. так, саме тому я кваліфікував свій Q "у взутті". Дуже дякую за книжкову рекомендацію. Я відшукаю копію. Набір прикладів допоможе принаймні як половина історії, а зустрічні приклади - друга половина.
чванчики

А-а-а, цитата! зі сторінки 2 четвертого видання: Ми пропонуємо читачам подумати над питаннями (у своїх областях роботи, досліджень чи інтересів), які можна вирішити за допомогою регресійного аналізу.
чванчики

0

Багато відповідей торкнулися припущень, які необхідно виконати: лінійність залишків, однорідність дисперсії в межах діапазону прогноктора, відсутність крайніх значень, які могли б впливати на лінію регресії, та незалежні спостереження. Залишкові ділянки досить легко виготовити за допомогою більшості регресійних програм, а деякі пакети надають деякі автоматично (SAS).

Одна людина говорила про перетворення у. Це звичайна практика в деяких областях, але це практика, яка призводить до упереджених і, можливо, непереборних результатів. Упередження виявляється, коли ви намагаєтесь назад перетворити результати в початковий показник. Краще перейти на інший тип регресії, який має залишковий малюнок, який відповідає розподільчим припущенням залишкової. Дивіться розділ 3 у вступі Агресті про категоричний аналіз даних, де він вводить поняття посилань. Ряд підручників з регресії також вводить узагальнену лінійну модель.


Я не поділяю песимізм щодо трансформації. Адже оригінальна трансформація є досить довільною. Якщо ви трансформуєте та отримуєте залишки із симетричним розподілом, зворотна трансформація передбачуваних значень є прогнозованою медіаною у вихідній шкалі. Прогнозовані медіани досить корисні. Якщо ви хочете отримати прогнозовані засоби в оригінальній шкалі, ви можете скористатися оцінювачем розмазування.
Френк Харрелл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.