Збірник методик перехресної перевірки


43

Мені цікаво, чи хтось знає збірник методів перехресної перевірки з обговоренням відмінностей між ними та керівництвом про те, коли використовувати кожну з них. У Вікіпедії є список найпоширеніших методик, але мені цікаво, чи існують інші методи і чи є в них таксономії.

Наприклад, я просто забігаю в бібліотеку, яка дозволяє мені вибрати одну з наступних стратегій:

  • Тримайся
  • Завантажувач
  • K Перехресне підтвердження
  • Залиште один
  • Стратифікована перехресна перевірка
  • Збалансована стратифікована перехресна перевірка
  • Стратифікований протриматися
  • Стратифікований завантажувальний пристрій

і я намагаюся зрозуміти, що означає стратифікований і збалансований під час завантаження, проведення або резюме.

Ми також можемо перетворити цю публікацію у вікі спільноти, якщо люди хочуть, і зібрати тут обговорення методів чи систематики.


Це велике запитання було б ще корисніше, якби ми могли посилання на пояснення кожного з методів.
mkt - Відновіть Моніку

Відповіді:


16

Ви можете додати до цього списку:

  • Повторне перехресне підтвердження
  • Перехресна перевірка виходу із групи
  • Позашляховий (для випадкових лісів та інших моделей з мішком)
  • Завантажувальний пристрій 632+

Я насправді не маю багато порад щодо того, як користуватися цими методами чи коли їх використовувати. Ви можете використовувати каретку пакет в R для порівняння CV, завантаження, Boot632, незмивні один виходу, незмивні групами поза, і поза мішка перехресної перевірки.

Як правило, я зазвичай використовую завантажувальний інструмент, оскільки він менш обчислювальний, ніж повторне резюме k-кратного, або резюме, яке не випускається. Boot632 - це мій алгоритм вибору, тому що він не вимагає набагато більше обчислень, ніж завантажувальний, і в певних ситуаціях виявляється кращим від перехресної перевірки чи базового завантажувального процесу.

Я майже завжди використовую оцінки помилок, що знаходяться в мішку, для випадкових лісів, а не перехресну перевірку. Помилки, що знаходяться в кошику, як правило, непідвладні, і випадкові ліси займають достатньо часу, щоб обчислити, як є.


3
Будь-які поради щодо використання кожного з них?
whuber

16

Перехресна перевірка K-кратна (CV) випадковим чином розбиває ваші дані на K-розділи, а ви, у свою чергу, тримаєте одну з цих частин K як тестовий випадок, а інші частини K-1 збираєте разом як ваші навчальні дані. Leave One Out (LOO) - це особливий випадок, коли ви берете свої N даних і робите N-кратне резюме. У певному сенсі Hold Out - це ще один особливий випадок, коли ви вибираєте лише один із своїх складок K як тестовий і не обертаєтеся через всі K складки.

Наскільки я знаю, 10-кратне резюме - це майже річ, оскільки вона ефективно використовує ваші дані, а також допомагає уникнути невдалого вибору розділу. Hold Out не ефективно використовує ваші дані, і LOO не настільки надійний (чи щось подібне), але 10-іш-кратний - це просто правильно.

Якщо ви знаєте, що ваші дані містять більше однієї категорії, а одна чи більше категорій значно менші, ніж решта, деякі ваші випадкові розділи K можуть взагалі не містити жодної з малих категорій, що було б погано. Щоб переконатися, що кожен розділ є досить репрезентативним, ви використовуєте стратифікацію: розбивайте свої дані на категорії, а потім створюйте випадкові розділи, вибираючи випадкову і пропорційну для кожної категорії.

Усі ці варіації резюме в K-кратному режимі вибирати з ваших даних без заміни. Завантажувальний інструмент вибирає дані із заміною, тому одна і та ж дана може бути включена кілька разів, а деякі дані можуть взагалі не включатися. (На кожному "розділі" також буде N елементів, на відміну від K-кратного, у якому кожен розділ матиме N / K елементів.)

(Я мушу визнати, що я не знаю точно, як використовувався завантажувальний пристрій у резюме. Принцип тестування та резюме полягає у тому, щоб ви не перевіряли дані, на яких ви пройшли навчання, тому ви отримаєте більш реалістичне уявлення про те, як може працювати ваша техніка + коефіцієнти в реальному світі.)

EDIT: Замінено "Затримка не ефективна" на "Затримка не ефективно використовує ваші дані", щоб допомогти уточнити, за коментарями.


1
Коли ви говорите, що "Затримка не є ефективною", я не впевнений, що я її дотримуюся. Що ви маєте на увазі під ефективністю тут? На відміну від звичайної N-складки, затримка не обертається через складки, тому вона повинна бути швидшою. Натомість ви маєте на увазі, що в боротьбі з надмірним приладом це гірше, ніж у звичайному резюме в N кратно?
Амеліо Васкес-Рейна

2
Під "ефективним" я маю на увазі, що він не використовує ваші дані ефективно. Краса K-кратного резюме полягає в тому, що 100% ваших даних використовується для навчання, а 100% ваших даних використовується для тестування, що дозволяє ефективно використовувати ваші дані. Ключовим є, звичайно, те, що всі ваші дані не використовуються для тестування та навчання одночасно, що дасть оптимістичні результати тестування (переоформлення). Здійснюючи статичний поділ, Hold Out каже, що, скажімо, 1/3 ваших даних ніколи не буде використовуватися для навчання, а 2/3 ваших даних ніколи не буде використовуватися для тестування, витрачаючи багато даних у ваші дані.
Уейн

@Wayne Чи не оцінювач тримання асимптотично непідвладний ? Крім того, простий К-кратний резюме більше схильний до помилок типу II, ніж повторний К-кратний КВ.
chl

@chl: Я вважаю, що ти маєш рацію в обох аспектах. Я не використовував повторне К-кратне резюме, але він повинен мати меншу дисперсію, що допоможе.
Уейн

3

Я знайшов одне з посилань, на яке посилається у статті Вікіпедії, досить корисним

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.48.529&rep=rep1&type=pdf

"Дослідження крос-валідації та завантажувальної програми для оцінки точності та вибору моделі", Рон Кохаві, IJCAI95

Він містить емпіричне порівняння для підмножини методик резюме. Версія tl; dr в основному "використовувати резюме в 10 разів".


1

... і керівництво про те, коли використовувати кожен з них ...

На жаль, ця проблема є складнішою, ніж її отримують. Існує щонайменше 2 основних використання перехресної перевірки: вибір моделі та оцінка продуктивності моделі.

Грубо кажучи, якщо ви використовуєте варіант CV, який розбиває дані, використовуючи високий коефіцієнт поїздки до тесту, це може бути кращим для оцінки. Використання більшого навчального набору дозволить точніше імітувати продуктивність моделі, розміщеної на повному наборі даних.

Але високе співвідношення поїзд-тест може бути гіршим для вибору. Уявіть, що дійсно є "найкраща" модель, яку ви "повинні" вибрати, але ваш набір даних досить великий. Тоді занадто великі моделі, які трохи підходять, матимуть майже таку ж характеристику резюме, що і «найкраща» модель (адже ви успішно оціните їхні хибні параметри як незначні). Випадковість даних та процедура резюме / розбиття часто змушує вас вибрати модель накладання замість справді "найкращої" моделі.

Див. Шао (1993), "Вибір лінійної моделі шляхом перехресної валідації" для старшої асимптотичної теорії у випадку лінійної регресії. Ян (2007), "Узгодженість перехресної валідації для порівняння регресійних процедур" та Ян (2006), "Порівняння методів навчання для класифікації" дають асимптотичну теорію для загальних проблем регресії та класифікації. Але жорсткі поради з кінцевим зразком важко придумати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.