Загалом, чи зробити висновок складніше, ніж робити прогнозування?


13

Моє запитання випливає з наступного факту. Я читав дописи, блоги, лекції, а також книги про машинне навчання. Моє враження, що практикуючі машинного навчання, здається, байдужі до багатьох речей, про які піклуються статистики / економетрики. Зокрема, фахівці з машинного навчання наголошують на точності прогнозування щодо висновку.

Один із таких прикладів трапився, коли я брав машинне навчання Ендрю Нґ на Coursera. Коли він обговорює просту лінійну модель, він нічого не згадував про властивість СВІТЛЬНИХ оцінювачів або про те, як гетероскледастичність «може визнати недійсним» довірчий інтервал. Натомість він зосереджується на реалізації градієнта спуску та концепції перехресної валідації / кривої ROC. Ці теми не висвітлювалися в моїх курсах з економетрики / статистики.

Інший приклад трапився, коли я брав участь у змаганнях з Kaggle. Я читав чужі коди та думки. Значна частина учасників просто кидає все у SVM / випадковий ліс / XGBoost.

Ще один приклад - поетапний вибір моделі. Ця методика широко використовується, принаймні в Інтернеті та на Kaggle. Багато класичних підручників машинного навчання також охоплюють це, наприклад, Вступ до статистичного навчання. Однак, згідно з цією відповіддю (що досить переконливо), поетапний вибір моделі стикається з великою кількістю проблем, особливо якщо мова йде про "відкриття справжньої моделі". Здається, є лише дві можливості: або практикуючі з машинного навчання не знають проблеми поетапно, або це роблять, але їх не хвилює.

Тож ось мої запитання:

  1. Чи правда, що (в основному) фахівці з машинного навчання зосереджуються на прогнозуванні і, таким чином, не цікавляться багатьма речами, які хвилюють статистиків / економістів?
  2. Якщо це правда, то в чому причина цього? Це тому, що висновок складніше в якомусь сенсі?
  3. В Інтернеті є багато матеріалів про машинне навчання (або прогнозування). Якщо мені цікаво дізнатися про те, як робити висновки, які ресурси в Інтернеті я можу порадити?

Оновлення : Я щойно зрозумів, що слово "умовивід" потенційно може означати багато чого. Те, що я мав на увазі під «висновком», стосується таких питань, як

  1. Чи причиною або причиною ? Або загалом, які причинно-наслідкові зв’язки між ?ХYYХХ1,Х2,,Хн

  2. Оскільки "всі моделі неправильні", наскільки "неправильною" є наша модель від справжньої моделі?

  3. З огляду на інформацію вибірки, що ми можемо сказати про населення та наскільки впевнено це можна сказати?

Зважаючи на дуже обмежене знання статистики, я навіть не впевнений, потрапляють ці питання у сферу статистики чи ні. Але це типи питань, які, здається, не цікавлять практиків машинного навчання. Можливо, статистиків це теж не хвилює? Не знаю.


2
Брайан Д Ріплі цитується у користуванніR! 2004 р. "Перефразовуючи переказово, машинне навчання - це статистика мінус будь-яка перевірка моделей і припущень". Фраза стала частиною fortunesпакету для CRAN. Це, щоб сказати, ви не на самоті з враженням, що математична суворість не завжди є основною проблемою в машинному навчанні.
Бернхард

Лео Брейман вирішує саме це питання у своїй праці "Статистичне моделювання: дві культури" 2001 року , яку чудово читати.
skd

Відповіді:


6

По-перше, я мав би іншу перспективу для машинного навчання. Те, що ви згадали, лекція «Coursera» та змагання «Кагл» Ендрю Нґ - це не 100% машинного навчання, а деякі галузі, націлені на практичні програми. Справжніми дослідженнями машинного навчання повинні бути роботи, які вигадують випадкову модель підвищення лісу / SVM / градієнта, яка досить близька до статистики / математики.

Я погодився б, що практикуючі машинного навчання більше зосереджуються на точності порівняно зі статистиками / економістами. Є причини, що люди зацікавлені в кращій точності, а не в «висновку про справжнє розповсюдження». Основна причина - те, як ми збираємо дані та використовуємо їх, було змінено за останні десятиліття.

Статистика була створена за сто років, але в минулому ніхто не думав би про те, що у вас є мільярди даних для навчання та інші мільярди даних для тестування. (Наприклад, кількість зображень в Інтернеті). Тому, при порівняно невеликій кількості даних, для виконання роботи потрібні припущення щодо знань про домен. Або ви можете подумати про "регуляризацію" моделі. Як тільки припущення були зроблені, то виникають проблеми з висновками щодо "справжнього" розподілу.

Однак якщо ми ретельно подумаємо про це, чи можемо ми переконатися, що ці припущення є істинними, а умовиводи справедливі? Я хотів би навести Джордж Бокс:

Усі моделі помиляються, але деякі корисні

Тепер повернемося до розгляду практичного підходу, щоб зробити більше акценту на точності, ніж на припущенні / умовиводі. Це хороший підхід, коли ми маємо величезну кількість даних.

Припустимо, ми будуємо модель для всіх зображень, що містять обличчя людини на рівні пікселів. По-перше, дуже важко запропонувати припущення щодо рівня пікселів для мільярдів зображень: ніхто не має цих знань про домен. По-друге, ми можемо подумати про всі можливі способи пристосування даних, і оскільки цих даних величезна кількість, у всіх моделей, які ми маємо, може бути недостатньо (майже неможливо перевиконати).

І тому «глибоке навчання / нейронна мережа» знову набуло популярності. За умови великих даних, ми можемо вибрати одну модель, яка насправді є складною, і підходити її якнайкраще, і ми можемо все одно гаразд, оскільки наші обчислювальні ресурси обмежені, порівняно з усіма реальними даними цього слова.

Нарешті, якщо побудована нами модель хороша у величезному наборі даних тестування, то вони є хорошими та цінними, хоча ми можемо не знати основного припущення чи справжнього розподілу.


Я хочу зазначити, що слово "умовивід" має різні значення в різних спільнотах.

  • У статистичній спільноті це зазвичай означає отримання інформації про справжній розподіл параметричним або непараметричним способом.
  • У спільноті машинного навчання це зазвичай означає обчислення певних ймовірностей із заданого розподілу. Для прикладів див. Підручник із графічними моделями Мерфі .
  • У машинному навчанні люди використовують слово "навчання", щоб представити "отримання параметрів істинного розподілу", подібне до "умовиводу" у статистичному співтоваристві.

Отож, бачите, по суті, багато людей у ​​машинному навчанні також роблять «висновки».

Крім того, ви можете також подумати про людей у ​​наукових колах, які хочуть "ребрендувати свою роботу та перепродавати": розробка нових термінів може бути корисною, щоб показати новизну дослідження. Насправді існує багато перекриттів серед штучного інтелекту, видобутку даних та машинного навчання. І вони тісно пов'язані зі статистикою та дизайном алгоритмів. Знову ж немає чітких меж робити "висновок" чи ні.


3
Я бачу, звідки ти родом. Альтернативним заходом може бути: передбачення = фокус на спостережуваних змінних, висновок = фокус на прихованих змінних. Тож у певному сенсі висновок намагається виробляти нові типи вимірювань, тоді як прогнозування стосується більше нових реалізацій вимірювань, які в принципі можна було б спостерігати? (Це, звичайно, сумісно з вашою відповіддю)
GeoMatt22,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.