Я наївно вважаю, що лінійна регресія підходить лише тоді, коли можна підозрювати, що між пояснювальними змінними та змінною відповіді існують лінійні функціональні зв'язки. Але, здається, не багато додатків у реальному світі відповідають цьому критерію.
Це неправильне розуміння того, що є "лінійним" у "лінійній регресії".
Це не стосунок між та 's, який вважається лінійною формою (хоча всі елементарні приклади можуть вас ввести в оману).yx
"Лінійна" відноситься до лінійної моделі в параметрах, і нелінійні співвідношення між та деяким можна, безумовно, змоделювати таким чином.yx
Там приклад з одним провісником тут , але криволінійні моделі частіше встановлені в якості множинної регресії, де кілька функцій провісника (х змінного, незалежні змінного) можуть мати місце в регресії, і це дозволяє більшу гнучкість. Це включає, наприклад, поліноміальну регресію. Дивіться деякі дискусії та приклади тут .
Однак, якщо допустити той факт, що предиктори можуть бути перетворені, щоб відповідати вигнутим співвідношенням, лінійність параметрів також відповідає лінійності в цих трансформованих прогнозах.
Крім того, багато проблем близькі до лінійних (принаймні, за діапазон значень, що розглядаються), або настільки галасливі, що будь-яка легка кривизна не помітна, і може зробитися безліч простих моделей для збільшення або зменшення відносин - і в такому випадку лінійний вибір може бути і адекватним, і найпростішим, щоб підходити і розуміти.
Про які аспекти проекту думає досвідчений статистик, якби вони опинилися в моєму взутті, шукаючи питання + дані, які добре підходять для лінійної регресії.
Єдиний раз, коли я можу шукати проблему, щоб застосувати регресію, коли б я намагався знайти хороший приклад для навчання. Перебуваючи фактично в положенні робити статистичну роботу (а не пояснювати її чи викладати її), я вибираю методологію відповідно до питання, що цікавить (та характеристику даних), а не вибираю дані відповідно до методу.
Уявіть, наприклад, столяра. Тесляр не бере рукоятку і каже "на чому я можу це використати ?". Швидше тесляр має вирішити проблему, і при розгляді характеристик проблеми ("що я намагаюсь зробити?" Та "яку деревину я використовую?" І так далі ...) можуть бути конкретні інструменти релевантніші за інші. Іноді інструменти, які доступні , можуть обмежувати або направляти вибір (якщо ви не маєте в скобель, ви , можливо , доведеться робити з чим - то іншим ... або ви можете просто піти купити скобель).
Однак припустимо, що у вас є кишеньковий статистик, який допомагає вам , і ви намагаєтеся знайти проблему, відповідну лінійній регресії. Тоді вони можуть запропонувати вам розглянути різні припущення щодо регресії та коли вони мають значення. Я згадаю кілька речей.
Якщо ви просто зацікавлені у встановленні відносин між y та деяким однозначним (можливо, трансформованим) x, більшість припущень для вас не обов'язково мають значення (теорема Гаусса-Маркова може мати певне значення). Ви шукаєте випадок, коли ви думаєте, що приблизно лінійний у для деякого - відомого - (тобто передбачає, що ми знаємо функціональну форму відносин, яку ми хочемо) . Пишучи , нам потрібно, щоб було принаймні приблизно істинним.E(y|g(x))g(x)gx∗=xE(y|x∗)=a+bx∗
Якщо ви можете скористатися множинною регресією, навіть це не є особливо важливою проблемою, оскільки можна використовувати (наприклад) кубічні регресійні сплайси, щоб відповідати досить загальним відносинам.
Я б пропонував вам уникати даних із часом, якщо ви не розумієте проблем із помилковою регресією; палиця з проблемами поперечного перерізу.
Якщо ви маєте справу лише з одним я сподіваюся, що ви хочете безперервний, а не категоричний .xx
Ви не хочете мати помилку вимірювання в якщо ви не зацікавлені в умові очікування вимірюваного значення.x
Якщо ви зацікавлені в тестуванні гіпотез, довірчих інтервалів або інтервалів прогнозування, можливо, більшість звичайних регресійних припущень можуть мати значення (але є альтернативи, які не роблять цих припущень, а в деяких випадках принаймні деякі припущення не можуть все одно бути особливо важливим).
Отож, хоча б спробувати бути в курсі, це те, що ці припущення зроблені при виведенні інфекційних процедур, які ви використовуєте, і наскільки вони можуть бути важливими для вашої конкретної проблеми (як приклад, під час виконання звичайних тестів на гіпотези, нормальність - це припущення, але для великих зразків це припущення може не бути важливим; з іншого боку, припущення про постійну дисперсію може бути більшою проблемою).
Є ряд публікацій, в яких обговорюються припущення про регресію, а також деякі публікації, які обговорюють, коли їх взагалі потрібно зробити, і скільки вони можуть мати значення, і навіть про те, в якому порядку їх розглядати.