Статистичне тестування призначене для отримання висновку з даних, воно говорить про те, як пов’язані речі. Результат - це щось, що має реальне значення. Наприклад, як куріння пов'язане з раком легенів, як з точки зору напрямку, так і масштабу. Це все ще не говорить вам, чому все сталося. Щоб відповісти, чому все сталося, нам потрібно також врахувати взаємозв'язок з іншими змінними та внести відповідні корективи (див. Pearl, J. (2003) ПРИЧІННІСТЬ: МОДЕЛІ, РОЗУМЕННЯ ТА ВПЛИВ).
Контрольоване навчання - це прогнозування, воно говорить вам, що буде. Наприклад, враховуючи стан куріння людини, ми можемо передбачити, чи буде у нього рак легенів. У простих випадках воно все ще говорить вам "як", наприклад, дивлячись на стан відсікання куріння, визначене алгоритмом. Але більш складні моделі важче або неможливо інтерпретувати (глибоке навчання / стимулювання з великою кількістю функцій).
Для полегшення вищезазначених питань часто використовується неуправлене навчання .
- Для статистичного тестування, виявивши деякі невідомі основні підгрупи даних (кластеризація), ми можемо зробити висновок про неоднорідність у асоціаціях між змінними. Наприклад, куріння збільшує шанси на наявність раку легенів для підгрупи A, але не для підгрупи B.
- Для контрольованого навчання ми можемо створити нові функції для підвищення точності прогнозування та надійності. Наприклад, ідентифікуючи підгрупи (кластеризація) або поєднання ознак (зменшення розмірів), які пов'язані з шансами на рак легенів.
Коли кількість особливостей / змінних збільшується, різниця між статистичним тестуванням та контрольованим навчанням стає більш істотною. Статистичне тестування може не мати вигоди від цього, це залежить, наприклад, від того, чи хочете ви робити причинно-наслідковий висновок, контролюючи інші фактори або виявляючи неоднорідність в асоціаціях, як згадувалося вище. Контрольоване навчання буде краще, якщо функції доречні і воно стане більше схожим на чорний ящик.
Коли кількість вибірки збільшується, ми можемо отримати більш точні результати статистичного тестування, більш точні результати для контрольованого навчання та більш надійні результати для непідконтрольного навчання. Але це залежить від якості даних. Дані поганої якості можуть спричинити упередження або шум до результатів.
Іноді ми хочемо знати, як "і" чому "інформувати інтервенційні дії, наприклад, виявляючи, що куріння спричиняє рак легенів, може бути вироблена політика проти цього. Іноді ми хочемо знати "про що", щоб повідомити про прийняття рішень, наприклад, з’ясувати, хто, ймовірно, має рак легенів, та призначити їм раннє лікування. Існує спеціальний випуск, опублікований в Science про прогнозування та його межі ( http://science.sciencemag.org/content/355/6324/468). «Схоже, успіх досягається найбільш послідовно, коли питання вирішуються в мультидисциплінарних зусиллях, які поєднують людське розуміння контексту з алгоритмічною здатністю обробляти терабайти даних». На мою думку, наприклад, знання, виявлені за допомогою тестування гіпотез, можуть допомогти наглядному навчанню, повідомивши нас які дані / особливості нам слід збирати в першу чергу. З іншого боку, контрольоване навчання може допомогти генерувати гіпотези, інформуючи, які змінні