Чи лінійна регресія застаріла? [зачинено]


12

Зараз я перебуваю в класі лінійної регресії, але не можу похитнутись від того, що те, що я навчаюсь, більше не актуальне ні в сучасній статистиці, ні в машинному навчанні. Чому стільки часу витрачається на здійснення висновку на просту чи множинну лінійну регресію, коли стільки цікавих наборів даних в наші дні часто порушує багато нереальних припущень лінійної регресії? Чому б замість цього не навчити висновку про більш гнучких, сучасних інструментах, таких як регресія за допомогою векторів підтримки або гауссового процесу? Хоча це складніше, ніж пошук гіперплану в просторі, чи це не дасть студентам набагато кращого підґрунтя для вирішення сучасних проблем?


10
Чи викрутки роблять молотки застарілими? Або кожен виконує інше завдання?
Sycorax повідомляє, що повернеться Моніка

6
У мене є мультитул, який функціонує як ніж, пила, пара різних викруток, пари плоскогубців і, напевно, пара інших речей, але коли мені потрібен будь-який з цих інструментів, це останнє, до чого я б дотягнувся. Це корисно лише в крайній частині, це ніколи не "найкращий інструмент для роботи".
Даррен

7
У багатьох, багатьох ситуаціях, з якими стикаються реальні люди, пов'язані дуже невеликі набори даних з високим рівнем шуму; у багатьох випадках більш складні моделі не є можливими, хоча принаймні добрий проміжок часу звичайна лінійна модель є принаймні придатною. Незважаючи на те, що великі набори даних (та пов'язані з ними проблеми) продовжуватимуть зростати, оскільки частка загального аналізу даних, що триває, дуже малі набори даних та порівняно прості аналізи, на які вони покладаються, ніколи не зникнуть. Додамо до цього, що більш складні інструменти будуються безпосередньо на простих, не лише історично, але й концептуально.
Glen_b -Встановити Моніку

6
На додаток до багатьох ситуацій, коли лінійна регресія продовжує практичне використання, також слід зазначити, що вона є основою для вивчення широкого класу більш досконалих моделей добавок. У цьому відношенні це питання є таким, як запитання, чи чисельність числення робить арифметику застарілою.
Яків Соколар

1
@Aksakal Будь ласка, докладно. Що з використанням байєсівської оптимізації?
Марк Л. Стоун

Відповіді:


24

Це правда, що припущення про лінійну регресію не реалістичні. Однак це стосується всіх статистичних моделей. "Усі моделі помиляються, але деякі корисні."

Я думаю, ти відчуваєш, що немає причин використовувати лінійну регресію, коли ти можеш використовувати більш складну модель. Це неправда, тому що в цілому більш складні моделі більш вразливі до переозброєння, і вони використовують більше обчислювальних ресурсів, які важливі, якщо, наприклад, ви намагаєтеся робити статистику на вбудованому процесорі чи веб-сервері. Простіші моделі також легше зрозуміти та інтерпретувати; навпаки, складні моделі машинного навчання, такі як нейронні мережі, як правило, стають чорними полями, більш-менш.

Навіть якщо лінійна регресія коли-небудь стане практично не корисною (що здається надзвичайно малоймовірною в майбутньому), вона все одно буде теоретично важливою, оскільки більш складні моделі, як правило, будуються на лінійній регресії в якості основи. Наприклад, щоб зрозуміти регульовану логістичну регресію зі змішаними ефектами, потрібно спочатку зрозуміти просту стару лінійну регресію.

Це не означає, що складніші, новіші та блискучі моделі не є корисними та важливими. Багато з них є. Але простіші моделі більш широко застосовуються і, отже, важливіші, і, очевидно, має сенс представити перше, якщо ви збираєтеся представити різноманітні моделі. Існує багато поганих аналізів даних, проведених цими днями людьми, які називають себе "науковцями даних" чи іншим, але навіть не знають основоположних речей, як, наприклад, що таке інтервал довіри. Не будьте статистикою!


Чи можете ви уточнити, що ви маєте на увазі під "складною моделлю"? Чи означає ОП те саме?
Хатшепсут

1
@Hatshepsut Практично все, що є не просто лінійною регресією або її окремим випадком. В якості прикладів ОП наводила моделі SVM та моделі Гаусса. Я згадав змішані моделі, логістичну регресію та санкціоновану регресію. Деякі інші приклади - дерева рішень, нейронні мережі, MARS, баєсові ієрархічні моделі та моделі структурних рівнянь. Якщо ви запитуєте, як ми вирішуємо, чи є одна модель більш складною, ніж інша, чи що саме вважається моделлю, то це питання, що є перехресними підтвердженнями для себе.
Кодіолог

«Переобладнання»; як, наприклад, використовувати поліном дев'ятого порядку, щоб підходити до чогось, що виявилося зваженою сумою експонентів. Це так добре підходило, що сюжет відтворював помилки на інструменті трохи вище рівня шуму. Мені все ще цікаво, чи справді використання цього многочлена працювало б краще.
Джошуа

7

Лінійна регресія взагалі не застаріла . Ще є люди, які працюють над дослідженнями методів, пов’язаних з LASSO, і як вони, наприклад, пов'язані з численними тестуваннями, - можна google Emmanuel Candes та Malgorzata Bogdan.

Якщо ви запитуєте зокрема про алгоритм OLS, відповідь, чому вони вчать цьому, є те, що метод настільки простий, що він має рішення закритої форми. Крім того, це просто простіше, ніж регресія хребта або версія з ласо / еластичною мережею. Ви можете побудувати свою інтуїцію / докази на вирішенні простої лінійної регресії, а потім збагатити модель додатковими обмеженнями.


3

Я не думаю, що регресія є давньою, вона може вважатися тривіальною для деяких проблем, з якими зараз стикаються науковці, але все ж це ABC статистичного аналізу. Як ви повинні зрозуміти, чи SVM працює правильно, якщо ви не знаєте, як працює найпростіша модель? Використання такого простого інструменту вчить ВАС, як заглянути до даних, перш ніж перейти до божевільних складних моделей і глибоко зрозуміти, які інструменти можна використовувати в подальшому аналізі, а які не можуть. Провівши цю розмову з моїм професором і колегою, вона сказала мені, що її студенти чудово застосовують складні моделі, але вони не можуть зрозуміти, що таке важелі, чи прочитати простий qq-сюжет, щоб зрозуміти, що не так у даних. Часто в самій простої і читаної моделі виступає краса.


3

Коротка відповідь - ні . Наприклад, якщо ви спробуєте лінійну модель з даними MNIST, ви все одно отримаєте ~ 90% точності!

Довгою відповіддю було б "залежно від домену", але лінійна модель широко використовується.

  • У певних галузях, скажімо, медичних досліджень, отримати дорогу точку даних дуже дорого. І робота з аналізом все ще схожа на багато років тому: лінійна регресія досі відіграє дуже важливу роль.

  • У машинному навчанні морденів, скажімо, класифікація тексту, лінійна модель все ще дуже важлива, хоча є й інші химерніші моделі. Це тому, що лінійна модель дуже "стабільна", їй доведеться менше хотіти надмірно відповідати даним.

Нарешті, лінійна модель справді є будівельним блоком для більшості інших моделей. Навчання добре піде на користь вам у майбутньому.


2

На практиці лінійна регресія корисна, навіть якщо ви також використовуєте більш складну модель для своєї роботи. Ключовим є те, що лінійну регресію легко зрозуміти, а тому її легко використовувати для концептуальної розуміння того, що відбувається в більш складних моделях.

Я можу запропонувати вам приклад практичного застосування з моєї реальної роботи в ролі статистичного аналітика. Якщо ви опинитесь в дикій природі, без нагляду, з великим набором даних, і ваш начальник просить вас провести аналіз на цьому, з чого ви починаєте? Що ж, якщо ви не знайомі з набором даних і не маєте гарного уявлення про те, як очікується, що різні функції стосуються один одного, то складна модель, як ті, які ви запропонували, - це погане місце для початку дослідження.

Натомість найкраще місце для початку - стара стара лінійна регресія. Проведіть регресійний аналіз, подивіться на коефіцієнти і графіть залишки. Після того, як ви почнете бачити, що відбувається з даними, тоді ви можете приймати деякі рішення щодо того, які передові методи ви намагаєтесь застосувати.

Я стверджую, що якщо ви просто підключили свої дані до якоїсь чорної скриньки передової моделі, наприклад sklearn.svm (якщо ви перебуваєте в Python), то у вас буде дуже низька впевненість, що ваші результати будуть значущими.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.