Яка різниця між завантажувальним завантаженням і перехресною валідацією?


21

Я застосовував перехресну валідацію K-кратної для надійної оцінки моїх моделей машинного навчання. Але мені відомо про існування методу завантаження і для цієї мети. Однак я не бачу основної різниці між ними в оцінці ефективності.

Наскільки я бачу, завантажувальне завантаження також виробляє певну кількість випадкових навчальних + тестових підмножин (хоча і по-іншому). Який сенс у використанні цього методу над CV? Єдине, що я можу зрозуміти, що у випадку завантаження даних можна штучно створити практично довільну кількість таких підмножин, тоді як для CV кількість примірників для цього є певною межею. Але цей аспект, здається, дуже мало неприємностей.

Відповіді:


18

Як перехресна перевірка, так і завантажувальна - це методи перекомпонування .

  • bootstrap поновлює з заміною (і зазвичай створює нові "сурогатні" набори даних із такою ж кількістю випадків, як і оригінальний набір даних). Завдяки кресленню із заміною, набір даних завантаженого завантаження може містити кілька примірників одних і тих же оригінальних випадків і може повністю опускати інші оригінальні регістри.
  • перехресне підтвердження перевірки без заміни і таким чином створює сурогатні набори даних, менші за оригінал. Ці набори даних виробляються систематично, так що після заздалегідь заданої кількості сурогатних наборів даних кожен з оригінальних випадків був виключений рівно один раз. Це називається k-кратною перехресною валідацією або перехресною валідацією відхід- x -out з , наприклад, перевірка перехресного виходу-один-один опускає 1 випадок для кожного сурогатного набору, тобто .n x = nkn k=nx=nkk=n

  • Як випливає з перехресної перевірки назви, її основною метою є вимірювання (узагальнення) продуктивності моделі. Навпаки, завантажувальна програма використовується в першу чергу для встановлення емпіричних функцій розподілу для широкого діапазону статистичних даних (широко, як, скажімо, від коливання середнього значення до варіації моделей у моделях з мішковим ансамблем).

  • Аналог виходу з режиму завантаження називається jackknifing (і насправді старший, ніж завантажувальний запуск).

  • Аналог завантажувальної програми для перехресних оцінок помилок узагальнення називається оцінкою поза завантаженням (оскільки тестові випадки залишилися поза навчальним набором для повторної вибірки завантажувальної програми).

[перехресний валідатон та перевірка поза завантаженням] Проте я не бачу основної різниці між ними в оцінці продуктивності.

Ця інтуїція правильна: на практиці часто не велика різниця між ітераційною кратною перехресною валідацією та поза завантажувальною системою. При аналогічній загальній кількості оцінюваних сурогатних моделей було встановлено, що загальна помилка [вимірювання помилки прогнозування моделі] є схожою, хоча типовий показник має більшу зміщення та меншу дисперсію, ніж відповідні оцінки CV.k

Існує низка спроб зменшити упередженість необійності (.632-bootstrap, .632 + -bootstrap), але чи дійсно вони покращать ситуацію, залежить від ситуації.

Література:


Єдине, що я можу зрозуміти, що у випадку завантаження даних можна штучно створити практично довільну кількість таких підмножин, тоді як для CV кількість примірників для цього є певною межею.

Так, для резюме можливе менше комбінацій, ніж для завантаження. Але межа для резюме, ймовірно, вище, ніж ви знаєте. Для набору даних із випадками та -кратною перехресною валідацією у вас єknk

  • CV комбінації без заміни (для k <n, що набагато більше, ніж можливостей, які зазвичай оцінюються) vs.(nk)k
  • bootstrap / oob комбінації із заміною (що знову набагато більше, ніж, скажімо, 100 або 1000 сурогатних моделей, які зазвичай оцінюються)(2n1n)

3

Запуск завантаження - це будь-який тест або метрика, яка спирається на випадкову вибірку із заміною. Це метод, який допомагає у багатьох ситуаціях, таких як перевірка продуктивності прогнозної моделі, методи ансамблю, оцінка зміщення та дисперсія параметра моделі моделі тощо. Це працює за виконання вибірки із заміною з початкового набору даних, і одночасно припускаючи, що точки даних, які не були обраними, є тестовим набором даних. Ми можемо повторити цю процедуру кілька разів і обчислити середній бал як оцінку ефективності нашої моделі. Крім того, завантажувальний зв'язок пов'язаний з методами навчання ансамблю, тому що ми можемо створити модель, використовуючи кожен набір даних завантажувальної машини та «мішком» цих моделей в ансамблі використовуючи більшість голосів (для класифікації) або обчислюючи середнє значення (для числових прогнозів) для всіх ці моделі як наш кінцевий результат.

Перехресне підтвердження - це процедура перевірки працездатності моделі, і вона здійснюється шляхом поділу навчальних даних на k частини. Ми припускаємо, що частини k-1 - це навчальний набір, а інша частина - це наш тестовий набір. Ми можемо повторити, що k разів по-різному, кожного разу видаючи різну частину даних. Нарешті, ми беремо середнє значення k балів як нашу оцінку ефективності. Перехресне підтвердження може постраждати від упередженості або відхилення. Збільшуючи кількість розщеплень, дисперсія теж збільшиться, а ухил зменшиться. З іншого боку, якщо ми зменшимо кількість розщеплень, зміщення збільшиться, а дисперсія зменшиться.

Підсумовуючи, перехресне підтвердження розбиває доступний набір даних для створення декількох наборів даних, а метод завантаження використовує оригінальний набір даних для створення декількох наборів даних після перекомпонування з заміною. Запуск завантаження не настільки сильна, як крос-валідація, коли вона використовується для перевірки моделі. Запуск завантаження - це більше про побудову моделей ансамблю або просто оцінку параметрів.


2

Перехресне підтвердження - це методика, яка має на меті побачити, наскільки добре ваша модель узагальнюється на даних, з якими не навчалися. Це не впливає на результати вашого алгоритму, він просто оцінює їх.

Запуск завантаження - це метод ансамблю, який об'єднує результати декількох моделей, таких як дерева рішень, щоб отримати усереднений результат . Технічно кажучи, це зменшує дисперсію алгоритму класифікації, який базується на одній моделі, оскільки він усереднює вихід за виходами декількох варіантів однієї структури структури (з різними параметрами). Тому він змінює продуктивність алгоритму класифікації, не оцінює його.

Іншими словами : крос-валідація оцінює, наскільки добре алгоритм узагальнюється, тоді як завантажувальна версія насправді допомагає алгоритму краще узагальнити.

Ви можете фактично використовувати перехресну перевірку на завантаженій моделі, щоб побачити, наскільки добре вона узагальнена.


3
Це мішок не завантажувальний прав?
елемолотів

0
  • Перехресне підтвердження: надайте оцінки помилки тесту.
  • Bootstrap: забезпечує стандартну похибку оцінок.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.