Гнучкі та негнучкі моделі в машинному навчанні

10

Я зіткнувся з простим питанням щодо порівняння гнучких моделей (тобто сплайнів) та негнучких моделей (наприклад, лінійної регресії) за різних сценаріїв. Питання:

Загалом, чи очікуємо, чи ефективність гнучких методів статистичного навчання може бути кращою чи гіршою, ніж негнучка методика, коли:

Кількість предикторів надзвичайно велика, а кількість спостережень невелика? $p$ $n$
Дисперсія термінів помилки, тобто $σ^2 = \text{Var}(e)$ , надзвичайно велика?

Я думаю, що для (1), коли $n$ мало, негнучкі моделі краще (не впевнені). Для (2) я не знаю, яка модель (відносно) краща.

machine-learning model

— alittleboy
джерело

Похибка узагальнення далеко не тривіальна. На жаль, правила цього не дуже допомагають у цьому плані.

— Marc Claesen

8

Схоже, це вступ від Джеймса, Віттена, Хасті, Тибшірані до статистичного навчання

— Ноель Еванс

1. Гнучка методика перевищить малу кількість спостережень. 2. Гнучкі методи підходять до шуму в умовах помилки та збільшують дисперсію.

— Занарк

3

У цих двох ситуаціях порівняльна продуктивність між гнучкими та негнучкими моделями також залежить від:

справжнє відношення y = f (x), близьке до лінійного або дуже нелінійне;
чи ви налаштовуєте / обмежуєте ступінь гнучкості "гнучкої" моделі під час її встановлення.

Якщо відношення близьке до лінійного і ви не обмежуєте гнучкість, то лінійна модель повинна дати кращу помилку тесту в обох випадках, оскільки гнучка модель, можливо, перевищить в обох випадках.

Ви можете подивитися на це так:

В обох випадках дані не містять достатньо інформації про справжнє відношення (у першому випадку відношення є великим розміром, і у вас недостатньо даних, у другому випадку вони пошкоджені шумом), але
- лінійна модель приносить деяку зовнішню попередню інформацію про справжнє відношення (обмежують клас пристосованих відносин до лінійних) та
- що попередня інформація виявляється правильною (справжнє відношення близьке до лінійного).
У той час як гнучка модель не містить попередньої інформації (вона може вмістити будь-що), тому вона підходить до шуму.

Якщо все ж справжнє відношення дуже нелінійне, важко сказати, хто виграє (обидва втратять :)).

Якщо ви налаштовуєте / обмежуєте ступінь гнучкості та виконуєте це правильно (скажімо, шляхом перехресної перевірки), то гнучка модель повинна вигравати у всіх випадках.

— Кочеде
джерело

4

Звичайно, це залежить від основних даних, які ви завжди повинні вивчити, щоб дізнатися деякі його характеристики, перш ніж намагатися підходити до моделі, але те, що я дізнався як загальні правила, є:

Гнучка модель дозволяє в повній мірі скористатися великим розміром вибірки (великий n).
Для пошуку нелінійного ефекту знадобиться гнучка модель.
Гнучка модель призведе до того, що ви помітите занадто багато шуму в проблемі (коли дисперсія термінів помилки велика).

— Пол ПМ
джерело

1

Що ж, для другої частини, я думаю, більш гнучка модель буде намагатися добре відповідати моделі, а дані про навчання містять високий рівень шуму, тому гнучка модель також намагатиметься дізнатися цей шум і призведе до більшої помилки тесту. Я знаю джерело цього питання, оскільки я також читаю ту саму книжку :)

— lovekesh
джерело

1

У першій частині я б очікував, що негнучка модель буде краще працювати з обмеженою кількістю спостережень. Коли n дуже мало, обидві моделі (будь то гнучкі чи негнучкі) не давали б достатньо хорошого прогнозу. Однак, гнучка модель, як правило, перевищує дані і буде працювати слабше, якщо мова йде про новий набір тестів.

В ідеалі я збирав би більше спостережень для поліпшення розміщення, але якщо це не так, я б використовував негнучку модель, намагаючись мінімізувати помилку тесту з новим набором тестів.

— user40935
джерело

0

Що стосується другого запитання, я вважаю, що відповідь обидва вони будуть виконувати однаково (якщо припустити, що ці помилки неприпустимі, тобто ця помилка). Більше інформації надано у Вступі до статистичного навчання на сторінці 18 (тема: Чому оцінювати ), де автор пояснює висловлювання $f$

Точність як передбачення для залежить від двох величин, які ми будемо називати помилкою, що зменшується, і невідмінною помилкою . Взагалі не буде ідеальною оцінкою для , і ця неточність введе деяку помилку. Ця помилка приводиться , тому що потенційно може поліпшити точність , використовуючи найбільш підходящий метод статистичного вивчення для оцінки . Однак, навіть якби можна було сформувати досконалу оцінку для , так що наша оціночна відповідь мала форму $Y$ $Y$ $\hat f$ $f$ $\hat f$ $\hat f$ $f$ $\hat Y = f(X)$ , наше передбачення все одно матиме помилку в цьому! Це тому , що є також функцією , який, за визначенням, не може бути передбачене з допомогою . Тому мінливість, пов'язана з також впливає на точність наших прогнозів. Це відоме як непридатна помилка, оскільки як би добре ми не оцінили , ми не можемо зменшити помилку, введену . $Y$ $\epsilon$ $X$ $\epsilon$ $f$ $\epsilon$

— ants.in.my.eyes
джерело

Я цього не розумію.

— Майкл Р. Черник

0

Для кожної з частин (а) - (г) вкажіть, чи я. або ii. правильно, і поясніть свою відповідь. Загалом, чи очікуємо, чи ефективність гнучких методів статистичного навчання може бути кращою чи гіршою, ніж негнучка методика, коли:

Розмір вибірки n надзвичайно великий, а кількість предикторів p невелика?

Краще. Гнучка методика буде відповідати даним ближче та з великим розміром вибірки, буде краще, ніж негнучкий підхід.

Кількість предикторів p надзвичайно велика, а кількість спостережень n невелика?

Гірше. Гнучка методика перевищить малу кількість спостережень.

Зв'язок між предикторами та реакцією вкрай нелінійний?

Краще. З більшою мірою свободи, гнучка методика підходила б краще, ніж негнучка.

Дисперсія термінів помилки, тобто σ2 = Var (ε), надзвичайно велика?

Гірше. Гнучка методика підходить до шуму в умовах помилки та збільшує відхилення.

Взято звідси .

— Гарві
джерело