Питання про відхилення відхилень відхилення та засоби оптимізації

Тож мені було цікаво, як можна, наприклад, найкраще оптимізувати модель, яку вони намагаються побудувати, стикаючись із проблемами, представленими великими ухилами чи великою дисперсією. Тепер, звичайно, ви можете грати з параметром регуляризації, щоб дійти до задовільного кінця, але мені було цікаво, чи можна це зробити, не покладаючись на регуляризацію.

Якщо b - оцінка зміщення моделі і v її дисперсії, чи не було б сенсу намагатися мінімізувати b * v?

machine-learning variance bias

— Zer0k
джерело

Існує маса способів упереджень та відхилень, які можна звести до мінімуму, і, незважаючи на популярні твердження, це не завжди компроміс.

Дві основні причини великої упередженості - недостатня ємність моделі та недостатність, оскільки навчальний етап був не завершеним. Наприклад, якщо у вас є дуже складна проблема для вирішення (наприклад, розпізнавання зображень), і ви використовуєте модель низької ємності (наприклад, лінійна регресія), ця модель буде мати великі ухили внаслідок того, що модель не зможе зрозуміти складність проблема.

Основна причина високої дисперсії - це накладання на тренувальний набір.

За словами, існують способи зменшити як ухил, так і дисперсію на моделі ML. Наприклад, найпростіший спосіб досягти цього - отримати більше даних (у деяких випадках навіть синтетичні дані допомагають).

Що ми, як правило, робимо на практиці:

По-перше, ми збільшуємо ємність моделі, щоб максимально зменшити розбіжність у навчальному наборі. Іншими словами, ми хочемо зробити модель надмірною (навіть досягти втрати 0 на навчальному наборі). Це робиться тому, що ми хочемо переконатися, що модель має здатність достатньо розуміти дані.
Тоді ми намагаємось зменшити упередженість . Це робиться через регуляризацію ( дострокова зупинка , норма штрафних санкцій , випадання тощо)

— Джиб2011
джерело

Щоб було зрозуміло, більше даних не означає виключно більше прикладів, але може бути більше функцій для поточних прикладів, правда?

— Zer0k

Насправді я мав на увазі більше прикладів, але ви маєте рацію, якби ви могли виміряти більше (змістовні) характеристики для поточних прикладів, які ви, безумовно, покращили б роботу вашої моделі.

— Djib2011