Я провів декілька досліджень щодо пристосування та недоопрацювання, і зрозумів, що вони саме є, але не можу знайти причин.
Які основні причини перевиконання та недоотримання?
Чому ми стикаємося з цими двома проблемами при навчанні моделі?
Я провів декілька досліджень щодо пристосування та недоопрацювання, і зрозумів, що вони саме є, але не можу знайти причин.
Які основні причини перевиконання та недоотримання?
Чому ми стикаємося з цими двома проблемами при навчанні моделі?
Відповіді:
Я спробую відповісти найпростішим способом. Кожна з цих проблем має своє основне походження:
Поміщення: Дані шумно, це означає, що є деякі відхилення від реальності (через помилки вимірювання, впливові випадкові фактори, незабезпечені змінні та сміттєві кореляції), що ускладнює нам бачити їх справжній зв’язок з нашими пояснюючими факторами. Крім того, вона зазвичай не є повною (у нас немає прикладів усього).
Як приклад, скажімо, я намагаюся класифікувати хлопчиків і дівчаток виходячи з їхнього зросту, тільки тому, що це єдина інформація, яку я маю про них. Ми всі знаємо, що, хоча хлопці в середньому вище, ніж дівчатка, існує величезна область перекриття, що робить неможливим ідеальне відокремлення їх лише тією інформацією. Залежно від густини даних, досить складна модель може досягти кращої успішності в цьому завданні, ніж теоретично це можливо на навчаннінабір даних, оскільки він може намалювати межі, які дозволяють деяким точкам самостійно стояти окремо. Отже, якщо у нас є лише людина, яка висотою 2,04 метри, і вона жінка, то модель могла б намалювати невелике коло навколо цієї області, що означає, що випадкова людина, яка висотою 2,04 метра, швидше за все, це жінка.
Основна причина цього - занадто багато довіряти навчальним даним (і в прикладі, модель говорить про те, що як немає чоловіка з ростом 2,04, то це можливо лише жінкам).
Недостатня відповідність - це протилежна проблема, в якій модель не в змозі визнати реальні складності наших даних (тобто не випадкові зміни в наших даних). Модель передбачає, що шум більший, ніж є насправді, і тому використовує занадто спрощену форму. Отже, якщо в наборі даних є набагато більше дівчат, ніж хлопчиків з будь-якої причини, то модель може просто класифікувати їх, як дівчаток.
У цьому випадку модель недостатньо довіряла даним, і вона просто припускала, що відхилення - це весь шум (і, наприклад, модель передбачає, що хлопчиків просто не існує).
Суть полягає в тому, що ми стикаємося з цими проблемами, оскільки:
Перевизначення - це коли модель оцінює змінну, яку ви моделюєте, дуже добре за початковими даними, але вона не добре оцінює новий набір даних (затримка, перехресне підтвердження, прогнозування тощо). У вашій моделі занадто багато змінних чи оцінювачів (фіктивних змінних тощо), і це призводить до того, що ваша модель стає занадто чутливою до шуму в початкових даних. Внаслідок перевиконання шуму у вихідних даних модель прогнозує погано.
Недостатня кількість - це коли модель не оцінює добре змінну ні в початкових даних, ні в нових даних. У вашій моделі відсутні деякі змінні, які необхідні для кращої оцінки та прогнозування поведінки залежної змінної.
Акт врівноваження між закінченням та недостатнім підходом є складним, а іноді і без чіткої фінішної лінії. У моделюванні часових рядів економетрики це питання вирішується досить добре з моделями регуляризації (LASSO, Ridge Regression, Elastic-Net), які спеціально спрямовані на зменшення надмірного розміру, відповідно зменшуючи кількість змінних у вашій моделі, зменшуючи чутливість коефіцієнтів до ваші дані або їх поєднання.
Можливо, під час дослідження ви натрапили на таке рівняння:
Error = IrreducibleError + Bias² + Variance
.
Чому ми стикаємося з цими двома проблемами при навчанні моделі?
Сама проблема навчання в основному є компромісом між ухилом і дисперсією .
Які основні причини перевиконання та недоотримання?
Коротка: шум.
Довгий: Невідправна помилка : помилки вимірювання / коливання даних, а також частина цільової функції, яка не може бути представлена моделлю. Перевизначення цільової змінної або зміна простору гіпотез (тобто вибір іншої моделі) змінює цей компонент.
Редагувати (для посилання на інші відповіді): Продуктивність моделі як складність варіюється:
де errorD - похибка по всьому розподілу D (на практиці оцінюється за допомогою тестових наборів).
Практично всі статистичні проблеми можна викласти у такій формі:
Якщо дивитися на статистичну проблему таким чином, то пристосування моделі - це завжди баланс між недостатнім та надмірним підходом, і будь-яке рішення завжди є компромісом. Ми стикаємося з цією проблемою, оскільки наші дані випадкові та галасливі.
Які основні причини перевиконання та недоотримання?
Для надмірного вбрання модель занадто складна, щоб добре відповідати навчальним даним. Для недоопрацювання модель занадто проста.
Чому ми стикаємося з цими двома проблемами при навчанні моделі?
Важко підібрати для даних «правильну» модель та параметри.
Перевиконання та недостатність - це, в основному, неадекватні пояснення даних за допомогою гіпотезованої моделі, і їх можна розглядати як модель, яка переосмислює або недоосмислює дані. Це створюється залежністю між моделлю, що використовується для пояснення даних, і моделлю, що генерує дані. Намагаючись пояснити, ми не можемо отримати доступ до основної моделі, тому наше судження керується іншим фактором: невизначеностями або помилками.
Коли, намагаючись пристосувати всю дисперсію, ми використовуємо занадто складну модель, ми переозброюємо. Це створюється нами, маючи вільне правління у виборі моделі та відповідно до занадто великого значення для барів помилок (або намагаючись пояснити всю мінливість, яка однакова). Якщо ми обмежимось моделлю, яка є занадто простою для опису даних, і не надає достатнього значення смугам помилок (або не пояснює мінливість), ми недостатні.
Як можна уникнути цих двох? Інформаційно підкріплені моделі (не отримані за даними, а за попередніми знаннями проблеми) та змістовними невизначеностями.
Коротше кажучи, перефілірування з'являється як наслідок шаблонів, які з’являються у вашому навчальному наборі даних, але їх немає у всій сукупності (вони з'явилися невдало). Якщо ви використовуєте просту модель (наприклад, лінійну регресію), ризик перенастроїти низька, оскільки кількість можливих шаблонів, які він може виявити, невелика, тому й шанс одного з тих, хто випадково відображається у вибірці, теж не великий. Приклад цього може статися, якщо ви спробуєте вивчити кореляції 1 000 000 змінних на популяції, яка бере 100-пробний зразок. Деякі функції можуть випадковим чином представляти величезну вибіркову кореляцію, незважаючи на те, що вони повністю незалежні одна від одної
Ще однією причиною надмірного пристосування є упереджене відбір проб ("зразки підроблених зразків" є, тому що зразок насправді не випадковий) Наприклад, якщо ви хочете вивчити середній розмір певного виду грибів, вийшовши туди і знайшовши їх у природі , ви, ймовірно, переоціните це (більші гриби легше знайти)
З іншого боку, недостатність - це досить просте явище. Це може означати дві дуже основні речі: А) У нас не вистачає даних для моделі, щоб дізнатися модель населення чи Б) Наша модель недостатньо потужна, щоб відобразити її.
Коротка відповідь:
Основна причина переодягання - використання складної моделі, коли у вас невеликий навчальний набір.
Основна причина недоопрацювання - використання занадто простої моделі та не може добре працювати на навчальному наборі.
- Моделі з високою місткістю можуть перетворитись на запам'ятовування властивостей навчального набору, які не дуже добре служать їм на тестовому наборі.
-Deep Learning book, Goodfellow та ін.
Мета машинного навчання - навчити модель на навчальному наборі з надією, що вона буде так само добре на даних тестування. Але чи завжди хороші показники на навчальному наборі завжди означають хороші показники на тестовому наборі? Не буде, тому що ваші дані про навчання обмежені . Якщо у вас є обмежені дані, у вашій моделі можуть виявитись деякі шаблони, які працюють для цього обмеженого навчального набору, але ці шаблони не узагальнюють до інших випадків (тобто тестового набору). Це можна вирішити будь-яким:
A - Надання більшого навчального набору для моделі, щоб зменшити ймовірність виникнення довільних зразків у навчальному наборі.
В - Використання більш простої моделі, щоб модель не змогла знайти ці довільні шаблони у навчальному наборі. Складніша модель зможе знайти більш складні моделі, тому вам потрібно більше даних, щоб переконатися, що ваш навчальний набір достатньо великий, щоб не містити довільних зразків.
(наприклад, уявіть, що ви хочете навчити модель виявляти кораблі з вантажних автомобілів, і у вас є 10 зображень на кожному. Якщо більшість кораблів на ваших зображеннях знаходяться у воді, ваша модель може навчитися класифікувати будь-яку картину з синім фоном як корабель замість того, щоб дізнатися, як виглядає судно. Тепер, якщо у вас було 10 000 зображень кораблів і вантажних автомобілів, ваш навчальний набір, швидше за все, містить кораблі та вантажівки різного типу, і ваша модель більше не може покладатися на синій фон.)
Недостатня обробка відбувається, коли модель не в змозі отримати досить низьке значення помилки на навчальному наборі.
Моделі з низькою місткістю можуть боротися, щоб відповідати навчальному набору.
-Deep Learning book, Goodfellow та ін.
Недостатня обробка виникає тоді, коли ваша модель просто недостатньо хороша, щоб засвоїти навчальний набір, тобто ваша модель занадто проста. Щоразу, коли ми починаємо вирішувати проблему, ми хочемо, щоб модель, принаймні, змогла отримати хороші показники на тренувальному наборі, і тоді ми починаємо думати про зменшення перевитрати. Як правило, рішення недостатнього задоволення є досить прямим: Використовуйте більш складну модель.
Розглянемо приклад, коли ми маємо рівняння гіпотези / моделі,
y=q*X+c,
де X = список функцій, y = позначка та q і c - коефіцієнти, які ми повинні навчити.
Якщо ми придумаємо значення коефіцієнта, такі, що його досить великі, і почнемо придушувати значення ознак (тобто X) у такому випадку, ми завжди отримуємо постійне значення y, незалежно від будь-якого значення X. Це називається дуже упередженою або недостатньо придатною моделлю.
Розглянемо ще один складний приклад гіпотези:
y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.
Визначивши найкращі значення коефіцієнтів, можливо, що за навчальними даними ми зможемо отримати мінімальну втрату. Це тільки тому, що ми зробили нашу модель настільки складною і щільно поєднаною, що вона дуже добре поводиться з даними про навчання. Тоді як із невидимими даними ми можемо отримати досить протилежні результати. Це називається сильно зміненою або надлишковою моделлю.
Об'єднана модель потребує більшої складності у виборі моделі, тоді як сильно змінена модель потребує падіння складності у виборі моделі. Методика регуляризації може допомогти нам визначити належний рівень складності моделі і завдяки цій методиці ми можемо подолати обидва питання.