Які алгоритми машинного навчання, якщо такі є, сприймаються як хороший компроміс між поясненнями та прогнозуванням?


9

Тексти машинного навчання, що описують алгоритми, такі як машини для підвищення градієнта або нейронні мережі, часто коментують, що ці моделі добре прогнозуються, але це відбувається ціною втрати пояснень або інтерпретаційності. І навпаки, окремі дерева рішень і класичні регресійні моделі позначаються як хороші в поясненні, але дають (відносно) погану точність прогнозування порівняно з більш досконалими моделями, такими як випадкові ліси або СВМ. Чи існують загальноприйняті моделі машинного навчання, які представляють гарний компроміс між ними? Чи є література, що перераховує характеристики алгоритмів, які дозволяють пояснити їх? (Це питання раніше було задано на перехресному підтвердженні)

Відповіді:


3

Чи є література, що перераховує характеристики алгоритмів, які дозволяють пояснити їх?

Єдина мені відома література - це нещодавній документ Ріберо, Сінгха та Гостріна. Вони спочатку визначають пояснення одного прогнозу:

Під "поясненням передбачення" ми маємо на увазі подання текстових чи візуальних артефактів, які забезпечують якісне розуміння взаємозв'язку між компонентами екземпляра (наприклад, словами в тексті, виправленнями на зображенні) та прогнозуванням моделі.

Автори далі розглядають, що це означає для конкретніших прикладів, а потім використовують це поняття для визначення пояснення моделі. Їх мета полягає в тому, щоб спробувати і так би мовити штучно додати пояснення до інакше непрозорих моделей, а не порівнювати пояснення існуючих методів. Документ може бути корисним, оскільки намагається ввести більш точну термінологію навколо поняття "пояснюваність".

Чи існують загальноприйняті моделі машинного навчання, які представляють гарний компроміс між ними?

Я погоджуюся з @Winter, що еластична сітка для (не тільки логістичної) регресії може розглядатися як приклад хорошого компромісу між точністю прогнозування та пояснюваністю.

Для іншого типу додатків (часових рядів) ще один клас методів також пропонує хороший компроміс: Байєсське моделювання структурних часових рядів. Це успадковує пояснення від класичного структурного моделювання часових рядів та деяку гнучкість від байєсівського підходу. Подібно до логістичної регресії, поясненню допомагають рівняння регресії, які використовуються для моделювання. Дивіться цей документ для приємного застосування в маркетингу та додаткових посилань.

Пов’язаний із щойно згаданим байєсівським контекстом, ви також можете переглянути імовірнісні графічні моделі. Їх пояснюваність не спирається на рівняння регресії, а на графічні способи моделювання; дивіться "Імовірнісні графічні моделі: принципи та методи" Коллера та Фрідмана для чудового огляду.

Я не впевнений, чи можемо ми називати байєсівські методи вище «загальноприйнятим добрим компромісом». Вони можуть бути недостатньо відомими для цього, особливо порівняно з прикладом еластичної сітки.


Тепер, коли у мене було більше шансів розглянути зв'язаний документ Рібейро та ін., Я хотів би сказати, що розділ 2 «Справа про пояснення» містить щось корисне визначення поняття «пояснення». гідна робота з визначення її важливості і, як така, заслуговує на широке читання у спільноті Data Science.
Роберт де Граф

Хоча передумова мого запитання в CV не була прийнята, @SeanEaster допоміг мені за цим корисним посиланням: jstage.jst.go.jp/article/bhmk1974/26/1/26_1_29/_article
Роберт де Грааф

3

Чи існують загальноприйняті моделі машинного навчання, які представляють гарний компроміс між ними?

Я припускаю, що, будучи хорошим в прогнозуванні, ви маєте на увазі можливість підходити до нелінійностей, наявних у даних, при цьому досить надійні для надмірного розміщення. Компроміс між інтерпретацією та спроможністю передбачити ці нелінійності залежить від даних і запитань. Насправді в науці даних немає вільного обіду, і жоден алгоритм не може вважатися найкращим для будь-якого набору даних (і те саме стосується інтерпретаційності).

Загальне правило повинно полягати в тому, що чим більше алгоритмів ви знаєте, тим краще для вас, оскільки ви можете легше прийняти до ваших конкретних потреб.

Якби мені довелося вибрати своє улюблене для завдання класифікації, яке я часто використовую в діловому середовищі, я б вибрав еластичну сітку для логістичного регресу . Незважаючи на чітке припущення про процес, який генерує дані, він легко може прийняти дані завдяки терміну регуляризації, зберігаючи його інтерпретацію від базової логістичної регресії.

Чи є література, що перераховує характеристики алгоритмів, які дозволяють пояснити їх?

Я б запропонував вам вибрати добре написану книгу, яка описує широко використовувані алгоритми машинного навчання та їх плюси та мінуси в різних сценаріях. Прикладом такої книги можуть бути «Елементи статистичного навчання » Т. Хасті, Р. Тібшірані та Дж. Фрідмана


3
ТБХ, це було моє розчарування в тому точному тексті, який багато разів використовує слово "інтерпретація" стосовно різних моделей, і на одному етапі говориться: "... додаток для передачі даних вимагає інтерпретаційних моделей. Недостатньо просто скласти прогнози (розділ 10.7), не маючи змоги знайти матеріал про те, як визначити інтерпретаційну модель - що спонукало це питання. Хоча я був і не люблю здаватися критичним до такого високо цінуваного тексту. Аналогічно документ TIbshirani, який представляє LASSO, перераховує "інтерпретаційну" як одну із своїх чеснот, не кажучи про те, що таке "інтерпретація".
Роберт де Граф

1

Можливо, побачите мою відповідь щодо необґрунтованої ефективності ансамблів та компромісів на пояснення проти прогнозування. Мінімальна довжина повідомлення (MML, Wallace 2005) дає формальне визначення пояснення з точки зору стиснення даних і мотивує очікування, що пояснення в цілому підходять без надмірного розміщення, а хороші пояснення дають хороші, узагальнюючі прогнози. Але вона торкається і формальної теорії, чому ансамблі прогнозуватимуть краще - результат, що повертається до (Solomonoff 1964) щодо оптимального прогнозування та властивий повністю байєсівським підходам: інтегруватися через задній розподіл, не просто вибирати середню, медіану, або режим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.