Моє запитання випливає з наступного факту. Я читав дописи, блоги, лекції, а також книги про машинне навчання. Моє враження, що практикуючі машинного навчання, здається, байдужі до багатьох речей, про які піклуються статистики / економетрики. Зокрема, фахівці з машинного навчання наголошують на точності прогнозування щодо висновку.
Один із таких прикладів трапився, коли я брав машинне навчання Ендрю Нґ на Coursera. Коли він обговорює просту лінійну модель, він нічого не згадував про властивість СВІТЛЬНИХ оцінювачів або про те, як гетероскледастичність «може визнати недійсним» довірчий інтервал. Натомість він зосереджується на реалізації градієнта спуску та концепції перехресної валідації / кривої ROC. Ці теми не висвітлювалися в моїх курсах з економетрики / статистики.
Інший приклад трапився, коли я брав участь у змаганнях з Kaggle. Я читав чужі коди та думки. Значна частина учасників просто кидає все у SVM / випадковий ліс / XGBoost.
Ще один приклад - поетапний вибір моделі. Ця методика широко використовується, принаймні в Інтернеті та на Kaggle. Багато класичних підручників машинного навчання також охоплюють це, наприклад, Вступ до статистичного навчання. Однак, згідно з цією відповіддю (що досить переконливо), поетапний вибір моделі стикається з великою кількістю проблем, особливо якщо мова йде про "відкриття справжньої моделі". Здається, є лише дві можливості: або практикуючі з машинного навчання не знають проблеми поетапно, або це роблять, але їх не хвилює.
Тож ось мої запитання:
- Чи правда, що (в основному) фахівці з машинного навчання зосереджуються на прогнозуванні і, таким чином, не цікавляться багатьма речами, які хвилюють статистиків / економістів?
- Якщо це правда, то в чому причина цього? Це тому, що висновок складніше в якомусь сенсі?
- В Інтернеті є багато матеріалів про машинне навчання (або прогнозування). Якщо мені цікаво дізнатися про те, як робити висновки, які ресурси в Інтернеті я можу порадити?
Оновлення : Я щойно зрозумів, що слово "умовивід" потенційно може означати багато чого. Те, що я мав на увазі під «висновком», стосується таких питань, як
Чи причиною або причиною ? Або загалом, які причинно-наслідкові зв’язки між ?
Оскільки "всі моделі неправильні", наскільки "неправильною" є наша модель від справжньої моделі?
З огляду на інформацію вибірки, що ми можемо сказати про населення та наскільки впевнено це можна сказати?
Зважаючи на дуже обмежене знання статистики, я навіть не впевнений, потрапляють ці питання у сферу статистики чи ні. Але це типи питань, які, здається, не цікавлять практиків машинного навчання. Можливо, статистиків це теж не хвилює? Не знаю.
fortunes
пакету для CRAN. Це, щоб сказати, ви не на самоті з враженням, що математична суворість не завжди є основною проблемою в машинному навчанні.