Чи є приватний лідер Kaggle хорошим прогнозувачем ефективності виграшної моделі поза зразком?


16

Хоча результати приватного тестового набору не можуть бути використані для подальшого вдосконалення моделі, чи не є вибір моделі з величезної кількості моделей на основі результатів приватного тестового набору? Чи не вдалося б ви, лише через цей процес, прилаштуватись до приватного тестового набору?

Відповідно до "Псевдоматематики та фінансового шарлатанізму: Вплив перенапруження на випробування поза результатами вибірки" Бейлі та ін. порівняно легко «переоцінити» при виборі найкращого з великої кількості моделей, оцінених за одним і тим же набором даних. Це не відбувається з приватним лідером Kaggle?

  • Які статистичні обгрунтування для найбільш ефективно діючих моделей приватного лідеру є моделями, що узагальнюють найкращі для вибіркових даних?
  • Чи справді компанії користуються виграшними моделями, або приватний лідери там просто пропонують "правила гри", а компанії насправді більше зацікавлені в розумінні, яке виникає в результаті обговорення проблеми?

1
Дещо пов'язане: stats.stackexchange.com/q/235591
Кодіолог

2
Ви можете подивитися на різницю між приватними та громадськими оцінками. Можна стверджувати, що ненадмірна модель повинна досягати аналогічних показників для обох наборів даних.
shadowtalker

2
@shadowtalker Це дійсно був би хорошим способом виявити переозброєння, але те, що нас насправді цікавить, - це непередбачувана прогностична потужність моделі, а не ступінь перевитрати. Модель накладання - тобто модель, яка працює набагато краще у вибірці, ніж вибірка, - може мати кращі показники поза вибіркою, ніж модель, яка не є надлишковою. У мене немає довідки, але я вважаю, що це часто трапляється в складних областях, наприклад, комп'ютерному зорі, коли використовуються складні моделі, наприклад, CNN.
полоскання

Відповіді:


10

Ну а моменти, які ви представляєте, справедливі, але я думаю, що існує набагато реальніша проблема з людьми, які переважають на загальнодоступній лідері .

Це може статися, коли ви зробите 100 або більше поданих заявок, публічний тестовий набір з часом вичерпається у вашому виборі гіперпараметра і, таким чином, переобладнає. Я думаю, що приватний лідери є необхідними в цьому відношенні.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.