Перехресне підтвердження: K-кратне та повторне випадкове під вибірку


10

Цікаво, який тип перехресної перевірки моделі вибрати для проблеми класифікації: K-кратна або випадкова підсемплікація (вибірка завантажувальної програми)?

Моя найкраща здогадка - використовувати 2/3 набору даних (що становить ~ 1000 предметів) для навчання та 1/3 для перевірки.

У цьому випадку K-кратність дає лише три ітерації (складки), що недостатньо, щоб побачити стабільну середню помилку.

З іншого боку, мені не подобається функція випадкового підбірки: те, що деякі елементи ніколи не вибиратимуться для навчання / перевірки, а деякі будуть використовуватися не один раз.

Використовувані алгоритми класифікації: випадкова лісова та логістична регресія.


1
Я думаю, що попереднє питання: чи не залежить цей вибір від алгоритму (головним чином його поведінки), що оцінюється?
Рубенс

1
@Rubens, я оновив питання: я
вступаю

Відповіді:


7

Якщо у вас є достатня кількість зразків і ви хочете використовувати всі дані, то k-кратна перехресна перевірка - це шлях. Маючи ~ 1500, здається, дуже багато, але чи адекватна вона для перехресної перевірки k-кратної, також залежить від розмірності даних (кількість атрибутів та кількість значень атрибутів). Наприклад, якщо кожне спостереження має 100 атрибутів, то 1500 спостережень є низьким.

Ще одним потенційним недоліком перехресної валідації k-кратної дії є можливість одиничного, надзвичайного перекручування результатів. Наприклад, якщо у вас є один надзвичайний зовнішній вигляд, який може сильно змістити ваш класифікатор, то в 10-кратній перехресній валідації 9 з 10 розділів будуть впливати (хоча для випадкових лісів, я не думаю, що у вас була б ця проблема ).

Випадкове підсистемізація (наприклад, вибірка завантажувальної завантажувальної програми) є кращою, коли ви є зразком нижче, або коли у вас є вищезгадана ситуація, коли ви не хочете, щоб кожне спостереження відображалося в k-1 складках.


4

Я думаю, ви говорите, що ви хочете використовувати трикратну перехресну перевірку, тому що ви знаєте щось про свої дані (що використання k = 10 спричинить надмірне розміщення? Мені цікаво ваші міркування). Я не впевнений, що ви це знаєте, якщо ні, то ви можете просто використовувати більшу k.

Якщо ви все ще вважаєте, що не можете використовувати стандартну перехресну перевірку k-кратну кількість, ви можете трохи змінити алгоритм: скажіть, що ви розділите дані на 30 разів і кожен раз використовуєте 20 для навчання та 10 для оцінки (а потім зміщуєте вгору один складіть і використовуйте перший і останній 9 як оцінювання, а решту як тренінг). Це означає, що ви можете використовувати всі свої дані.

Коли я використовую k-кратну перехресну перевірку, я зазвичай запускаю процес кілька разів з різною рандомізацією, щоб переконатися, що у мене є достатня кількість даних, якщо ви цього не зробите, ви побачите різні показники залежно від рандомізації. У таких випадках я б запропонував зробити вибірку. Трюк тоді - робити це досить часто.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.