Не існує офіційних відмінностей, що відрізняють машинне навчання та статистику на фундаментальному рівні пристосування моделей до даних. Можуть існувати культурні відмінності у виборі моделей, цілях пристосування моделей до даних, а до деяких розширити інтерпретації.
У типових прикладах, які я можу придумати, ми завжди маємо
- колекція моделей для для деякого набору індексів , i ∈ I IMii∈II
- і для кожного невідомий компонент (параметри, може бути безкінечномірні) моделі .θ i M iiθiMi
Пристосування до даних майже завжди є проблемою математичної оптимізації, що полягає в пошуку оптимального вибору невідомого компонента щоб зробити відповідним даним, виміряним деякою улюбленою функцією.θ i M iMiθiMi
Вибір серед моделей менш стандартний, і доступний цілий ряд методів. Якщо мета пристосування моделі є чисто передбачувальною, вибір моделі проводиться з намаганням отримати хороші прогнозні показники, тоді як якщо першочерговою метою є інтерпретація отриманих моделей, більш легкі для інтерпретації моделі можуть бути обрані над іншими моделями, навіть якщо їх прогнозована сила, як очікується, буде гіршою.Mi
Те, що можна назвати вибором статистичної моделі старої школи , ґрунтується на статистичних тестах, можливо, поєднаних із поетапними стратегіями відбору, тоді як вибір машинного навчання зазвичай орієнтується на очікувану помилку узагальнення, яку часто оцінюють за допомогою перехресної перевірки. Однак, здається, що поточні розробки та розуміння вибору моделі схожі на більш загальну основу, див., Наприклад, вибір моделі та усереднення моделей .
Визначення причинності у моделей
Суть справи полягає в тому, як ми можемо інтерпретувати модель? Якщо дані, отримані з ретельно розробленого експерименту, а модель є адекватною, правдоподібно, що ми можемо інтерпретувати ефект зміни змінної в моделі як причинний ефект, а якщо повторити експеримент і втрутитися в цю конкретну змінну ми можемо очікувати, що ми спостерігатимемо оцінений ефект. Якщо, однак, дані спостерігаються, ми не можемо очікувати, що оцінені ефекти в моделі відповідають ефектам, що спостерігаються втручання. Для цього знадобляться додаткові припущення, незалежно від того, модель є "моделлю машинного навчання" чи "класичною статистичною моделлю".
Можливо, люди, навчені використовувати класичні статистичні моделі з акцентом на одновимірні оцінки параметрів та інтерпретації розмірів ефекту, створюють враження, що причинно-наслідкова інтерпретація є більш вірною в цій рамці, ніж у машинній системі навчання. Я б сказав, що це не так.
Область причинного висновку в статистиці насправді не усуває проблему, але вона робить припущення, на яких причинно-наслідкові висновки залишаються явними. Вони називаються непереборними припущеннями . Стаття Причинно-наслідкові висновки в статистиці: Огляд Джудеї Перл - це хороший документ для читання. Основним внеском причинного висновку є збір методів оцінки причинних наслідків за припущеннями, коли насправді є непомічені конфузи, що інакше викликає серйозне занепокоєння. Див. Розділ 3.3 в перламутровій роботі вище. Більш просунутий приклад можна знайти в статті « Крайові структурні моделі» та «Причинно-наслідковий висновок в епідеміології» .
Це питання, чи є безперечними припущення. Вони точно незаперечні, оскільки ми не можемо перевірити їх, використовуючи дані. Для обґрунтування припущень необхідні інші аргументи.
Як приклад, де зустрічається машинне навчання та причинно-наслідковий висновок, ідеї цільової оцінки максимальної ймовірності , представлені в цільовому навчанні максимальної вірогідності Марка ван дер Лаана та Даніеля Рубіна, зазвичай використовують методи машинного навчання для непараметричного оцінювання з подальшим "націленням" "до параметра, що цікавить. Останнє цілком може бути параметром із причинним тлумаченням. Ідея в Super Learnerполягає в значній мірі покладатися на методи машинного навчання для оцінки параметрів, що цікавлять. Важливим моментом Марка ван дер Лаана (особисте спілкування) є те, що класичні, прості та "інтерпретаційні" статистичні моделі часто неправильні, що призводить до упереджених оцінок та занадто оптимістичної оцінки невизначеності оцінок.