Як буде працювати принцип Оккама Бритва в машинному навчанні


11

Наступне питання, відображене на зображенні, було задано під час одного з іспитів. Я не впевнений, правильно я зрозумів принцип бритви Оккама чи ні. Відповідно до меж розподілу та прийняття рішень, наведених у запитанні та після бритви Оккама, відповідь межами B в обох випадках має бути відповіддю. Тому що відповідно до бритви Occam, виберіть простіший класифікатор, який виконує гідну роботу, а не складну.

Чи може хтось, будь ласка, засвідчити, чи моє розуміння правильне і чи обрана відповідь відповідна чи ні? Будь ласка, допоможіть, оскільки я лише початківець у машинному навчанні

питання


2
3.328 "Якщо знак не потрібен, то він безглуздий. Такий сенс бритва Оккама". From Tractatus Logico-Philosophicus by Wittgenstein
Jorge Barrios

Відповіді:


13

Принцип бритви Оккама:

Маючи дві гіпотези (тут, межі прийняття рішень), які мають однаковий емпіричний ризик (тут, помилка тренувань), коротке пояснення (тут, межа з меншою кількістю параметрів) має тенденцію бути більш достовірним, ніж довге пояснення.

У вашому прикладі і A, і B мають нульову помилку тренувань, тому B (коротше пояснення) є кращим.

Що робити, якщо помилка навчання не однакова?

Якщо межа A мала меншу помилку тренування, ніж B, вибір стає складним. Нам потрібно кількісно оцінити "розмір пояснення" те саме, що "емпіричний ризик" і об'єднати дві в одну функцію оцінювання, а потім приступити до порівняння A і B. Прикладом може бути інформаційний критерій Akaike (AIC), який поєднує емпіричний ризик (вимірюється негативним логічність) та розмір пояснення (вимірюється кількістю параметрів) в одному балі.

Як бічна примітка, AIC не може використовуватися для всіх моделей, є також багато альтернатив AIC.

Ставлення до набору перевірок

У багатьох практичних випадках, коли модель просувається до більшої складності (більшого пояснення) для досягнення меншої помилки навчання, АПК тощо може бути замінена набором перевірки (набором, на якому модель не навчається). Ми зупиняємо прогрес, коли похибка перевірки (помилка моделі на наборі перевірки) починає зростати. Таким чином ми досягаємо балансу між низькою помилкою тренувань та коротким поясненням.


3

Оккам Бритви - це лише синонім принципу Парсимонії. (KISS. Нехай це буде просто і дурно.) Більшість альгів працюють у цьому принципі.

У вищенаведеному питанні треба подумати, розробляючи прості роздільні межі,

як і на першому малюнку, відповідь D1 є B. Оскільки це визначає найкращу лінію, що розділяє 2 зразки, як a є многочленом і може закінчитися надмірною підгонку. (якби я використав SVM, ця лінія прийшла б)

аналогічно на фігурі 2 D2 відповідь B.


2

Бритва Оккама в завданнях на встановлення даних:

  1. Спершу спробуйте лінійне рівняння
  2. Якщо (1) не допомагає багато - виберіть нелінійний з меншими термінами та / або меншими ступенями змінних.

D2

BОчевидно виграє, тому що це лінійна межа, яка добре розділяє дані. (Що "добре", я зараз не можу визначити. Ви повинні розвивати це почуття з досвідом). Aмежа надзвичайно нелінійна, що здається хвилевою синусоїдою.

D1

Однак я не впевнений у цьому. Aмежа подібна до кола і Bсуворо лінійна. ІМХО, для мене - гранична лінія не є ні сегментом кола, ні відрізком лінії, - це крива, що нагадує параболу:

введіть тут опис зображення

Тому я вибрав C:-)


Я все ще не впевнений, чому ви хочете проміжну лінію для D1. Бритва Оккама каже використовувати просте рішення, яке працює. Якщо немає більше даних, B - це абсолютно дійсний поділ, який відповідає даним. Якщо ми отримали більше даних, що говорить про більшу криву набору даних B, то я міг би побачити ваш аргумент, але запит на C суперечить вашій точці (1), оскільки це працює лінійна межа.
Delioth

Тому що від лінії до лівого кругового скупчення точок є багато порожнього просторуB . Це означає, що будь-яка нова випадкова точка, що надходить, має дуже високий шанс бути присвоєною круговому кластеру зліва та дуже малий шанс бути призначеним кластеру праворуч. Таким чином, Bлінія не є оптимальною межею у випадку нових випадкових точок на площині. І ви не можете ігнорувати випадковість даних, тому що зазвичай завжди відбувається випадкове переміщення очок
Агній Василіяускас

0

Я не впевнений, правильно я зрозумів принцип бритви Оккама чи ні.

Давайте спочатку звернемось до бритви Occam:

Бритва Оккама [..] стверджує, що "більш прості рішення швидше правильні, ніж складні". - Вікі

Далі розглянемо вашу відповідь:

Тому що відповідно до бритви Occam, виберіть простіший класифікатор, який виконує гідну роботу, а не складну.

Це правильно, оскільки в машинному навчанні проблема надмірного обладнання є проблемою. Якщо ви виберете більш складну модель, ви, швидше за все, класифікуєте тестові дані, а не фактичну поведінку вашої проблеми. Це означає, що, коли ви використовуєте свій складний класифікатор для прогнозування нових даних, він швидше буде гіршим, ніж простий класифікатор.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.