Прогностичні моделі: статистика не може перемогти машинне навчання? [зачинено]


14

Зараз я переглядаю магістерську програму, зосереджену на статистиці / економетриці. У мого майстра всі студенти мали зробити 3 місяці досліджень. Минулого тижня всі групи мали представити свої дослідження решті студентів магістрів.

Практично кожна група робила статистичне моделювання та моделювання машинного навчання для своїх дослідницьких тем, і кожен раз, коли нестандартні прогнози прийшли говорити про прості моделі машинного навчання, обіграли дуже складні статистичні моделі, над якими кожна працювала надто важко протягом останніх 3 місяців. Незалежно від того, наскільки хороші статистичні моделі кожного, простий випадковий ліс майже завжди має менші помилки від вибірки.

Мені було цікаво, чи це загальноприйняте спостереження? Що якщо мова йде про позапробне прогнозування, просто немає способу перемогти просту випадкову лісову або екстремальну модель підвищення градієнта? Ці два методи дуже просто реалізувати, використовуючи пакети R, тоді як всі статистичні моделі, які кожен придумав, вимагають досить багато навичок, знань та зусиль для оцінки.

Які ваші думки з цього приводу? Чи є єдиною перевагою статистичні / економетричні моделі, які ви отримуєте інтерпретацію? Або ж наші моделі були недостатньо хорошими, що не змогли значно перевершити прості випадкові передбачення лісу? Чи є документи, які стосуються цього питання?


5
Це може бути закрито як "занадто широке". (Сподіваюся, не як "на основі думки"!) Моя думка: я не думаю, що існує універсальна відповідь. Мій досвід полягає в тому, що статистичні моделі є кращими, якщо спостережень буде менше, тому що нав'язування якоїсь структури покращується в основному без модельного підходу. І навпаки, радіочастотні сигнали краще, якщо буде багато спостережень. ...
Стефан Коласа

4
... Інше питання - що саме оцінювали, і як. Якщо прогнозування точок було оцінено належним чином (заходи точності можуть бути напрочуд оманливими), це зовсім інше питання, ніж якби прогнози щільності були. Статистичні моделі можуть бути кращими при прогнозах щільності, знову ж таки тому, що вам потрібно набагато більше даних.
Стефан Коласа

1
@StephanKolassa: Я думаю, що хороша відповідь (або набір декількох відповідей) на це питання міститиме причини, чому не існує універсальної відповіді - теоретично і практично -, як оцінюється прогнозована ефективність, як розрізняти статистичну та машинну методи навчання, які цілі можуть бути поза прогнозом, і кілька речей, про які я не думав. Так широка сфера; але не надто широкий, на мою думку, і намагання обмежити це може просто заважати робити корисні загальні моменти.
Scortchi

5
Те, що ми не хочемо, - це збірка анекдотів - я закликаю користувачів подати прапор для видалення відповідей, які надходять трохи більше, ніж, наприклад, "Я завжди виявляв, що випадкові ліси перемагають логістичний регрес", як би це не було. Ми можемо трохи розгубити коментарі, але довгі теми буде переміщено до чату.
Scortchi

14
Я не думаю, що між статистикою та машинним навчанням є вагоме розмежування. Наприклад, Лео Брейман, видатний дослідник випадкових лісів, був професором статистики в УК Берклі. У контексті вашого анекдоту, РФ виявилася кращою, ніж у інших моделях, які підходили людям, але я не бачу причин, щоб це було правдою взагалі (див. Також теорему «Без вільного обіду»). Можливо, це говорить більше про набір даних (або навіть учнів), ніж про методи.
Sycorax повідомляє про відновлення Моніки

Відповіді:


20

Статистичне моделювання відрізняється від машинного навчання. Наприклад, лінійна регресія є і статистичною моделлю, і моделлю машинного навчання. Отже, якщо ви порівнюєте лінійну регресію з випадковим лісом, ви просто порівнюєте простішу модель машинного навчання з більш складною. Ви не порівнюєте статистичну модель з моделлю машинного навчання.

Статистичне моделювання забезпечує більше, ніж інтерпретацію; він фактично дає модель деякого параметра населення. Це залежить від великої основи математики та теорії, яка дозволяє формулювати такі речі, як дисперсія коефіцієнтів, дисперсія прогнозів та тестування гіпотез. Потенційний потенціал статистичного моделювання набагато більший, ніж машинне навчання, тому що ви можете робити сильні твердження про параметри сукупності, а не просто вимірювати помилки в ходу, але набагато складніше підійти до проблеми зі статистичною моделлю.


1
Наскільки я розумію, ви говорите, що зі статистикою ви отримуєте більше переваг, як дисперсія коефіцієнтів, дисперсія прогнозів та тестування гіпотез. Але якщо мова йде лише про моделювання прогнозування, тобто для точкового прогнозу змінної реакції, чи вважаєте ви, що статистичні моделі можуть перемогти моделі машинного навчання?
дубвіце

5
Це відповідь (+1!). На мій погляд (а може бути, і для інших), існує кілька типів статистичних аналізів: описовий, інфекційний, прогнозний, дослідницький тощо. Машинне навчання в основному підпадає під прогнозний аналіз, і більшість з них не дозволяє зробити інфекційний твердження про речі, тому все зводиться до "використання правильного інструменту для роботи" (з огляду на приклад лінійної регресії, її можна використовувати у всіх полях, наприклад, оцінюючи умовні очікування, що є описовим завданням).
Firebug

2
Це звучить як твердження, що стандартне статистичне моделювання може бути кращим для висновку (на відміну від прогнозування), ніж машинне навчання, що може допомогти інтерпретувати модель. Хоча це, безумовно, вірно, якщо ми порівнюємо звичайну регресію найменших квадратів з глибокою нейронною мережею, враховуючи, що в первісному питанні конкретно йдеться про випадковий ліс (хороший алгоритм ML для виводу), таке твердження трохи нечітке.
Greenstick

2
Ось кілька вагомих доказів із часового ряду, де статистичні моделі послідовно перемагають підходи до машинного навчання: Макрідакіс «Методи прогнозування статистики та машинного навчання: проблеми та шляхи подальшого розвитку» .
Річард Харді

1
Це просто ідеальна відповідь. Ось приклад: скажіть, що у вас є міра, яка передбачає виживання пацієнтів із даним захворюванням. Існують міжнародні стандарти, як визначити, чи цей показник клінічно достовірний (в основному, якщо коефіцієнт відрізняється від 0 при значенні pvalue нижче 5% в одновимірній або багатоваріантній моделі). Хоча я абсолютно впевнений, що 99% часу випадковий ліс з достатніми даними стане набагато кращим способом прогнозування.
Ремі Ніколл

5

Неправильно ставити запитання так, як ви його склали. Наприклад, значну частину машинного навчання можна назвати статистичним навчанням . Отже, ваше порівняння - як яблука проти фруктових дьогтів.

Однак я піду так, як ви його обрамляли, і запевняю наступне: якщо мова йде про передбачення, то нічого не можна зробити без якоїсь форми статистики, оскільки прогноз по суті має в ньому випадковість (невизначеність). Враховуйте це: незважаючи на величезний успіх машинного навчання в деяких додатках, у прогнозуванні ціни на активи абсолютно немає нічого, що можна показати. Нічого взагалі. Чому? Тому що на більшості розвинених ліквідних ринків ціни на активи суттєво стохастичні.

Ви можете запускати машинне навчання цілий день, щоб спостерігати та дізнаватися про радіоактивний розпад атомів, і він ніколи не зможе передбачити час розпаду наступного атома, просто тому, що це випадково.

Як прагнучий статистик, було б нерозумно на вашому боці не оволодівати машинним навчанням, адже це одне з найгарячіших застосувань статистики, якщо, звичайно, ви точно не знаєте, що збираєтесь до академічних шкіл. Кожен, хто, ймовірно, піде працювати в галузі, повинен освоїти ML. Взагалі немає ворожнечі або конкуренції між статистикою та натовпами ML. Насправді, якщо вам подобається програмування, ви відчуєте себе як вдома у сфері ML


2

Як правило, ні, але, можливо, так, при неправильній специфікації. Питання, яке ви шукаєте, називається прийнятністю. Рішення прийнятне, якщо існує не менш ризикований спосіб його обчислення.

Усі байєсівські рішення є допустимими, а не-баєсові рішення прийнятні в тій мірі, в якій вони відповідають сумі байєсівського рішення в кожному зразку або в межах межі. Прийнятне рішення частотолога або баєса завжди перемагає ML, якщо це також не допустимо. З урахуванням сказаного, є деякі практичні зауваження, які роблять це твердження правдивим, але вагомим.

По-перше, пріоритет для байєсівського варіанту повинен бути вашим справжнім пріоритетом, а не деяким попереднім розповсюдженням, що використовується для того, щоб зробити редактора журналу задоволеним. По-друге, багато рішень частотолога неприпустимі, а замість стандартного рішення слід було б використовувати оцінку усадки. Багато людей не знають про лемму Штейна та її наслідки для помилок вибірки. Нарешті, ML може бути дещо надійнішим, у багатьох випадках, помилкою помилки.

Коли ви переселяєтесь у дерева рішень та їх двоюрідних братів, ліси ви не використовуєте подібну методологію, якщо ви також не використовуєте щось подібне до мережі Бейса. Графічне рішення містить значну кількість неявної інформації, зокрема спрямований графік. Щоразу, коли ви додаєте інформацію до ймовірнісного чи статистичного процесу, ви зменшуєте варіабельність результату та змінюєте те, що вважатиметься допустимим.

Якщо дивитися на машинне навчання з точки зору складу функцій, воно просто стає статистичним рішенням, але використовуючи наближення, щоб зробити рішення простежуваним. Для байєсівських рішень MCMC заощаджує неймовірну кількість часу, як і градієнтний спуск для багатьох проблем з ML. Якби тобі довелося побудувати точну задню частину, щоб інтегрувати або застосувати грубу силу при багатьох проблемах ML, Сонячна система померла б її тепловою смертю, перш ніж ти отримаєш відповідь.

Я здогадуюсь, що у вас неправильно вказана модель для тих, хто використовує статистику або невідповідну статистику. Я викладав лекцію, де я показав, що новонароджені будуть випливати з вікон, якщо їх не належним чином сповивати, і де метод Байєса настільки кардинально перевершив метод частота в мультиноміальному виборі, що метод частота перебив навіть в очікуванні, в той час як метод Байєса подвоїв гроші учасників . Тепер я зловживав статистикою в перших і скористався неприпустимістю частотного оцінювача в другому, але наївний користувач статистикою міг легко робити те, що я робив. Я просто зробив їх крайніми, щоб зробити приклади очевидними, але я використав абсолютно реальні дані.

Випадкові ліси є послідовними оцінками, і вони, схоже, нагадують певні байєсівські процеси. Через зв’язок з оцінниками ядра вони можуть бути досить близькими. Якщо ви бачите істотну різницю у ефективності між типами рішення, то в основній проблемі є щось, що ви нерозумієте, і якщо проблема має якесь значення, то вам дійсно потрібно шукати джерело різниці, оскільки це може бути також у випадку, якщо всі моделі неправильно вказані.


1

Багато машинного навчання, можливо, не так відрізняються від p-хакерства, принаймні для деяких цілей.

Якщо ви протестуєте кожну можливу модель, щоб виявити ту, яка має найвищу точність прогнозування (історичне прогнозування або групове прогнозування) на основі історичних даних, це не обов'язково означає, що результати допоможуть зрозуміти, що відбувається. Однак, можливо, вони знайдуть можливі відносини, які можуть повідомити гіпотезу.

Мотивація конкретних гіпотез і потім їх тестування за допомогою статистичних методів, безумовно, може бути аналогічним чином п-хаком (або подібним).

Але справа в тому, що якщо критерії "найвища точність прогнозування на основі історичних даних", то існує високий ризик переконання в тій чи іншій моделі, яку людина не розуміє, не маючи фактичного уявлення про те, що спричинило ці історичні результати та / чи вони можуть бути інформативними для майбутнього.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.