Чи достатньо перехресної перевірки, щоб запобігти надмірній відповідності?


17

Якщо у мене є дані і я запускаю класифікацію (скажімо, випадковий ліс за цими даними) з перехресною валідацією (скажімо, у 5 разів), чи можу я зробити висновок про те, що в моєму методі немає надмірного розміщення?

Відповіді:


20

Зовсім ні. Однак перехресне підтвердження допомагає оцінити, наскільки ваш метод перевищує.

Наприклад, якщо ваші дані тренувань R-квадрата регресії дорівнюють 0,50, а перекреслений R-квадрат 0,48, у вас навряд чи є надмірний вигляд, і ви почуваєте себе добре. З іншого боку, якщо перекваліфікований R-квадрат тут становить лише 0,3, значна частина продуктивності вашої моделі походить від переозброєння, а не від справжніх стосунків. У такому випадку ви можете або прийняти низьку ефективність, або спробувати різні стратегії моделювання з меншим накладанням.


8
Я вважаю, що ця відповідь є коректною по духу, але я не погоджуюся з характеристикою надмірного розміщення у другому абзаці. Я не вірю, що над приміркою виникає, коли помилка поїзда - помилка тесту> деяка прив'язка, я б охарактеризував над пристосуванням як ситуацію, коли збільшення складності моделі злегка збільшує помилку затримки. Якщо вимагати порівняння помилок ваших поїздів і випробувань, часто це призводить до вкрай непридатних моделей.
Метью Друрі

7

Перехресна перевірка - це добра, але не досконала методика мінімізації надмірної підгонки.

Перехресна перевірка не буде ефективною для зовнішніх даних, якщо наявні у вас дані не є тими, що ви намагаєтеся передбачити!

Ось дві конкретні ситуації, коли перехресне підтвердження має вади:

  • Ви використовуєте минуле для прогнозування майбутнього: часто є великим припущенням припустити, що попередні спостереження будуть надходити від тієї ж популяції з тим же розподілом, що і майбутні спостереження. Перехресне підтвердження набору даних, витягнутих з минулого, не захистить від цього.
  • Існує упередженість даних, які ви збираєте: дані, які ви спостерігаєте, систематично відрізняються від даних, які ви не спостерігали. Наприклад, ми знаємо про упередженість респондентів у тих, хто вирішив взяти опитування.

3
Якщо ваш набір даних не є поганим представленням справжньої сукупності, як правило, вважається окремим питанням надмірного розміщення. Звичайно, правильно, що перехресне підтвердження не стосується їх.
Cliff AB

2

Також я можу рекомендувати ці відео з курсу Стенфорда в галузі статистичного навчання. Ці відео дуже глибокі щодо того, як ефективно використовувати перехресне валудація.

Перехресна перевірка та завантажувальна програма (14:01)

Перехресне підтвердження K-кратного (13:33)

Перехресне підтвердження: правильний і неправильний шлях (10:07)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.