Чому слід вивчати лінійну регресію?

13

Враховуючи дві випадкові величини та ми можемо обчислити їх "коефіцієнт кореляції" , і сформувати лінію, що найкраще підходить між цими двома випадковими змінними. Моє питання чому? $\xi$ $\eta$ $c$

1) Існують випадкові величини, та які залежать найгіршим можливим способом, тобто і незважаючи на це . Якщо б тільки думати по лінійній регресії, то можна було б повністю засліпити це. $\xi$ $\eta$ $\xi = f(\eta)$ $c=0$

2) Чому саме лінійні? Існують інші види зв’язків, які можуть існувати між випадковими змінними. Навіщо виділяти цього з усіх інших?

regression

— Ніколя Бурбакі
джерело

18

Це трохи схоже на запитання, чому ви володієте викруткою, коли іноді стикаєтеся з цвяхами.

— Sycorax каже, що повернеться до Моніки

6

Ви також здаєтеся припущенням, що там є люди, які турбуються лише про лінійну регресію: "Якщо тільки думати про лінійну регресію", "Навіщо виділяти цю одну з усіх інших ". Мені це здається солом'яним, звичайно смішно дотримуватися одного і лише одного інструменту чи точки зору.

— Меттью Друрі

7

Лінійний "конкретно" насправді більше стосується лінійних комбінацій базових функцій , які насправді є загальними.

— GeoMatt22

2

@MatthewDrury Немає солом’яника, і я нічого не припускаю, я просто задаю питання, використовуючи патологічний-крайній випадок мислення, щоб проілюструвати слабку точку методу. Чому ви вважаєте, що я припускаю це? Регресія - дуже велика тема для статистиків. Я не розумію, що в ньому настільки особливого, що його так багато вивчають.

— Ніколя Бурбакі

8

Для тих, хто важко стикається з цим питанням: я думаю, що ви забули назад, коли вперше дізналися про лінійну регресію і сказали, що "одне з припущень - це лінійний ефект". Ви думали собі "але ефект ніколи не лінійний!". Дуже ймовірно, після багато роздумів, ви переконали себе, що незважаючи на це, лінійна регресія все ще є основним інструментом, який слід розуміти та використовувати. Тепер просто скиньте себе назад до того, як ви закінчили це роздуми. Я думаю, що це велике питання, що кожен студент статистики повинен витратити багато часу на розгляд.

— Кліф АВ

10

Я погоджуюся, що не всі відносини самі по собі лінійні, але досить багато відносин можуть бути лінійно наближені. Ми спостерігали багато таких випадків у математиці, як серія Тейлора чи серії Фур'є тощо. Ключовим моментом тут є, сказано в коментарі geomatt22, ви можете взагалі перетворити нелінійні дані та застосувати якесь перетворення за допомогою базових функцій та лінеаризувати відносини. Причина, по якій університети звертаються лише до "декількох лінійних регресійних моделей" (включаючи прості регресійні моделі), полягає в тому, що вони є основою для моделей більш прогресивного рівня, які також є лінійними.

Математично кажучи, поки ви зможете довести, що певне лінійне наближення є щільним у просторі Гільберта, тоді ви зможете використовувати наближення для зображення функції у просторі.

— Daeyoung Lim
джерело

2

Саме так. Ніхто інший не згадував про це, але як говорить ця відповідь, загалом ви завжди можете застосувати перетворення до своїх змінних, щоб лінеаризувати відносини. Крім того: а) легко знайти глобальні максимуми для лінійних регресій; б) багато інших моделей, включаючи нейронні мережі, простіше зрозуміти, якщо ви знаєте логістичні регресії, засновані на лінійних регресіях.

— Рікардо Крус

7

Модель, про яку ви посилаєтесь, проста лінійна регресія, яка називається "лінійкою, що найкраще підходить" (тут я плутаю модель та метод оцінки), правда, дуже проста (як говорить назва). Навіщо це вивчати? Я бачу безліч причин. Далі я припускаю, що поняття випадкової величини було принаймні неофіційно введено, оскільки ви згадали про це у своєму запитанні.

педагогічна: звичайно, для вас очевидно, що реально оцінені випадкові величини з кінцевими моментами другого порядку утворюють простір Гільберта. Можливо, це було вже очевидно, коли ви вперше вивчили теорію ймовірностей. Але статистику навчають не лише учні математики: існує широка громадськість - від фізики до економіки, до інформатики, до суспільствознавства тощо. Ці студенти можуть зіткнутися зі статистикою на початку навчання. Вони можуть бути, а можуть і не бути предметом лінійної алгебри, і навіть у першому випадку вони не могли бачити її з більш абстрактної точки зору математичного курсу. Для цих студентів сама концепція апроксимації випадкової величини іншою випадковою змінною не є настільки безпосередньою. Навіть основна властивість простої лінійної моделі, тобто той факт, що помилка та предиктор є ортогональними випадковими змінними, їх іноді дивує. Те, що ви можете визначити "кут" між випадковими змінними ("неприємні" об'єкти! Вимірювані функції від простору ймовірностей до вимірюваного простору), може бути для вас очевидним, але не обов'язково для першокурсника. Таким чином, якщо вивчення векторних просторів починається з доброї евклідової площини, чи не має сенсу починати вивчення статистичних моделей з найпростішої?
процедурний : за допомогою простої лінійної регресії ви можете ввести поняття оцінки параметрів, а отже, методу найменших квадратів, стандартних помилок тощо у найпростішому випадку. Якщо ви вважаєте, що це банально, майте на увазі, що багато професіоналів, які використовують статистику у своїх роботах / дослідженнях, але не є статистиками, сильно розгублені щодо частого інтервалу довіри! У будь-якому випадку, як тільки найпростіший випадок буде розкрито, ви можете перейти до множинної лінійної регресії. Після того, як це буде освоєно, всі лінійні моделі доступні для оцінки. Іншими словами, якщо я можу відповідати моделі (OLS або LARS у випадку необхідності регуляризації тощо), я можу підходить для всіх моделей типу $\xi = \beta_0+\sum_{i=1}^N \beta_i \eta_i +\epsilon$ $\xi = \sum_{i=0}^N \beta_i \phi(\eta_i) +\epsilon$ . Це дійсно потужний клас моделей, який, як зазначає @DaeyoungLim, може наближати всі функції в просторі Гільберта, якщо у вас є нескінченний набір базових функцій, і якщо вони генерують векторний підпростір, щільний у просторі Гільберта .
Практично : існує чимало успішних застосувань простої лінійної регресії. Закон Оукена в економіці, закон Гука , закон Ома і закон Чарльза в фізиці, відносини між кров'ю систолічного тиску і віку в медицині (я поняття не маю , якщо у нього є ім'я!) Є прикладами простої лінійної регресії, з різним ступенем точність.

— DeltaIV
джерело

5

Наступною причиною є прекрасний спосіб регресії, який дає уніфіковане лікування таким методам, як ANOVA. Мені звичайне «елементарне» лікування ANOVA видається досить незрозумілим, проте лікування на основі регресії є кристально чистим. Я підозрюю, що це має багато спільного з тим, як регресійні моделі роблять явні деякі припущення, що в «елементарних» методах лікування є мовчазними і не вивченими. Крім того, концептуальна чіткість, яку пропонує така об'єднавча перспектива, супроводжується подібними практичними перевагами, коли настає час для впровадження методів у статистичне програмне забезпечення.

Цей принцип застосовується не лише до ANOVA, але і до розширень на зразок обмежених кубічних сплайнів - які, зокрема, стосуються вашого другого питання.

— Девід К. Норіс
джерело

3

Популярність лінійної регресії частково пояснюється її інтерпретацією - тобто нетехнічні люди можуть зрозуміти коефіцієнти параметрів лише з невеликим поясненням. Це додає великої цінності в бізнес-ситуаціях, коли кінцеві користувачі результатів чи прогнозів можуть не мати глибокого розуміння математики / статистики.

Так, існують припущення та обмеження щодо цієї методики (як і при всіх підходах), і вона може не забезпечити найкращу відповідність у багатьох випадках. Але лінійна регресія є дуже надійною і часто може працювати досить добре, навіть якщо припущення порушуються.

З цих причин, безумовно, варто вивчити.

— B. Мороз
джерело

-2

Щось може не бути прямо пов’язаним.

$x$ $y$ $cov(x,y) = 0$ $x$ $y$ $y$ $x$

— Чжу Цзіньчуань
джерело