Відмова: Це, безумовно, далеко не повна відповідь на питання!
Думаю, що слід розглянути щонайменше два рівні, перш ніж встановити різницю між усіма такими методами:
- підходить одна чи інша модель : це допомагає протистояти таким методам, як логістична регресія проти РФ або градієнтне підсилення (або загалом методів ансамблю ), а також робить акцент на оцінці параметрів (із пов'язаними асимптотичними або довірчими інтервалами завантажувальної передачі) порівняно з класифікацією або обчислення точності прогнозування;
- чи вважаються всі змінні чи ні: Це основа вибору ознак у тому сенсі, що пеналізація чи регуляризація дозволяє впоратися з "неправильними" наборами даних (наприклад, великимиp та / або малий n) та покращити узагальнення результатів.
Ось кілька інших моментів, які, на мою думку, мають відношення до питання.
Якщо ми розглядаємо кілька моделей - одна і та ж модель розміщується на різних підмножинах (індивіди та / або змінні) наявних даних, або різні конкурентні моделі розміщуються в одному наборі даних--, можна уникнути перехресної перевірки, щоб уникнути переобладнати та виконати вибір моделі чи особливостей, хоча резюме не обмежується цим конкретним випадком (наприклад, його можна використовувати в GAMs або штрафних GLM). Також існує традиційне питання інтерпретації: більш складні моделі часто мають на увазі більш складну інтерпретацію (більше параметрів, більш жорсткі припущення тощо).
Стимулювання градієнта та радіочастотні сигнали долають обмеження одного дерева рішень, завдяки Boosting , головна ідея якого полягає в об'єднанні результатів декількох слабких алгоритмів навчання, щоб побудувати більш точне і стабільне правило прийняття рішень, і Baging, де ми "середні" результати над перекомпоновані набори даних. Взагалі їх часто розглядають як якусь чорну скриньку порівняно з більш «класичними» моделями, де наводяться чіткі специфікації для моделі (я можу придумати три класи моделей: параметричну , напівпараметричну , непараметричну ), але Я думаю, що дискусія, що проходила під цією іншою темою Дві культури: статистика проти машинного навчання? надайте цікаві точки зору.
Ось кілька робіт про вибір функції та деякі методи ML:
- Saeys, Y, Inza, I та Larrañaga, P. Огляд методів відбору особливостей у біоінформатиці , Біоінформатика (2007) 23 (19): 2507-2517.
- Даґерті, Е.Р., Хуа Дж та Сіма, C. Виконання методів вибору ознак , поточна геноміка (2009) 10 (6): 365–374.
- Boulesteix, AL та Strobl, C. Оптимальний вибір класифікатора та негативний зміщення в оцінці коефіцієнта помилок: емпіричне дослідження великомірного прогнозування , BMC Medical Research Methodology (2009) 9:85.
- Каруана, Р. і Нікулеску-Мізіль, А. Емпіричне порівняння алгоритмів навчання під контролем . Матеріали 23-ї міжнародної конференції з машинного навчання (2006).
- Фрідман, Дж., Хасті, Т і Тібширані, Р. Аддитивна логістична регресія: Статистичний погляд на підвищення , Енн. Статист. (2000) 28 (2): 337-407. (З обговоренням)
- Олден, Дж. Д., Лоулер, Дж. Дж. Та Пофф, штат штат Нью-Йорк. Методи машинного навчання без сліз: буквар для екологів , Q Rev Biol. (2008) 83 (2): 171–93.
І звичайно, Елементи статистичного навчання , від Хасті та спільноти, рясніють ілюстраціями та посиланнями. Також не забудьте перевірити Підручники з видобутку статистичних даних від Ендрю Мура.