Гнучкі та негнучкі моделі в машинному навчанні


10

Я зіткнувся з простим питанням щодо порівняння гнучких моделей (тобто сплайнів) та негнучких моделей (наприклад, лінійної регресії) за різних сценаріїв. Питання:

Загалом, чи очікуємо, чи ефективність гнучких методів статистичного навчання може бути кращою чи гіршою, ніж негнучка методика, коли:

  1. Кількість предикторів надзвичайно велика, а кількість спостережень невелика? нpn
  2. Дисперсія термінів помилки, тобто σ2=Var(e) , надзвичайно велика?

Я думаю, що для (1), коли n мало, негнучкі моделі краще (не впевнені). Для (2) я не знаю, яка модель (відносно) краща.


Похибка узагальнення далеко не тривіальна. На жаль, правила цього не дуже допомагають у цьому плані.
Marc Claesen

8
Схоже, це вступ від Джеймса, Віттена, Хасті, Тибшірані до статистичного навчання
Ноель Еванс

1. Гнучка методика перевищить малу кількість спостережень. 2. Гнучкі методи підходять до шуму в умовах помилки та збільшують дисперсію.
Занарк

Відповіді:


3

У цих двох ситуаціях порівняльна продуктивність між гнучкими та негнучкими моделями також залежить від:

  • справжнє відношення y = f (x), близьке до лінійного або дуже нелінійне;
  • чи ви налаштовуєте / обмежуєте ступінь гнучкості "гнучкої" моделі під час її встановлення.

Якщо відношення близьке до лінійного і ви не обмежуєте гнучкість, то лінійна модель повинна дати кращу помилку тесту в обох випадках, оскільки гнучка модель, можливо, перевищить в обох випадках.

Ви можете подивитися на це так:

  • В обох випадках дані не містять достатньо інформації про справжнє відношення (у першому випадку відношення є великим розміром, і у вас недостатньо даних, у другому випадку вони пошкоджені шумом), але
    • лінійна модель приносить деяку зовнішню попередню інформацію про справжнє відношення (обмежують клас пристосованих відносин до лінійних) та
    • що попередня інформація виявляється правильною (справжнє відношення близьке до лінійного).
  • У той час як гнучка модель не містить попередньої інформації (вона може вмістити будь-що), тому вона підходить до шуму.

Якщо все ж справжнє відношення дуже нелінійне, важко сказати, хто виграє (обидва втратять :)).

Якщо ви налаштовуєте / обмежуєте ступінь гнучкості та виконуєте це правильно (скажімо, шляхом перехресної перевірки), то гнучка модель повинна вигравати у всіх випадках.


4

Звичайно, це залежить від основних даних, які ви завжди повинні вивчити, щоб дізнатися деякі його характеристики, перш ніж намагатися підходити до моделі, але те, що я дізнався як загальні правила, є:

  • Гнучка модель дозволяє в повній мірі скористатися великим розміром вибірки (великий n).
  • Для пошуку нелінійного ефекту знадобиться гнучка модель.
  • Гнучка модель призведе до того, що ви помітите занадто багато шуму в проблемі (коли дисперсія термінів помилки велика).

1

Що ж, для другої частини, я думаю, більш гнучка модель буде намагатися добре відповідати моделі, а дані про навчання містять високий рівень шуму, тому гнучка модель також намагатиметься дізнатися цей шум і призведе до більшої помилки тесту. Я знаю джерело цього питання, оскільки я також читаю ту саму книжку :)


1

У першій частині я б очікував, що негнучка модель буде краще працювати з обмеженою кількістю спостережень. Коли n дуже мало, обидві моделі (будь то гнучкі чи негнучкі) не давали б достатньо хорошого прогнозу. Однак, гнучка модель, як правило, перевищує дані і буде працювати слабше, якщо мова йде про новий набір тестів.

В ідеалі я збирав би більше спостережень для поліпшення розміщення, але якщо це не так, я б використовував негнучку модель, намагаючись мінімізувати помилку тесту з новим набором тестів.


0

Що стосується другого запитання, я вважаю, що відповідь обидва вони будуть виконувати однаково (якщо припустити, що ці помилки неприпустимі, тобто ця помилка). Більше інформації надано у Вступі до статистичного навчання на сторінці 18 (тема: Чому оцінювати ), де автор пояснює висловлюванняf

Точність як передбачення для залежить від двох величин, які ми будемо називати помилкою, що зменшується, і невідмінною помилкою . Взагалі не буде ідеальною оцінкою для , і ця неточність введе деяку помилку. Ця помилка приводиться , тому що потенційно може поліпшити точність , використовуючи найбільш підходящий метод статистичного вивчення для оцінки . Однак, навіть якби можна було сформувати досконалу оцінку для , так що наша оціночна відповідь мала формуYYе е е е е Y = F ( X ) Y ε X ε F εf^ff^f^fY^=f(X), наше передбачення все одно матиме помилку в цьому! Це тому , що є також функцією , який, за визначенням, не може бути передбачене з допомогою . Тому мінливість, пов'язана з також впливає на точність наших прогнозів. Це відоме як непридатна помилка, оскільки як би добре ми не оцінили , ми не можемо зменшити помилку, введену . YϵXϵfϵ


Я цього не розумію.
Майкл Р. Черник

0

Для кожної з частин (а) - (г) вкажіть, чи я. або ii. правильно, і поясніть свою відповідь. Загалом, чи очікуємо, чи ефективність гнучких методів статистичного навчання може бути кращою чи гіршою, ніж негнучка методика, коли:

Розмір вибірки n надзвичайно великий, а кількість предикторів p невелика?

Краще. Гнучка методика буде відповідати даним ближче та з великим розміром вибірки, буде краще, ніж негнучкий підхід.

Кількість предикторів p надзвичайно велика, а кількість спостережень n невелика?

Гірше. Гнучка методика перевищить малу кількість спостережень.

Зв'язок між предикторами та реакцією вкрай нелінійний?

Краще. З більшою мірою свободи, гнучка методика підходила б краще, ніж негнучка.

Дисперсія термінів помилки, тобто σ2 = Var (ε), надзвичайно велика?

Гірше. Гнучка методика підходить до шуму в умовах помилки та збільшує відхилення.

Взято звідси .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.