Чи виграні змагання з Kaggle випадково?

Змагання з Kaggle визначають остаточний рейтинг на основі проведеного тестового набору.

Проведений тестовий набір - зразок; він може не репрезентувати населення, яке моделюється. Оскільки кожне подання схоже на гіпотезу, алгоритм, який виграв змагання, може, як правило, збігатися з тестовим набором краще, ніж інші. Іншими словами, якби обраний інший тестовий набір і змагання повторилися, чи залишиться рейтинг тим самим?

Для корпорації, яка спонсорує це, насправді це не має значення (можливо, найкращі 20 заявок покращать їх базовий рівень). Хоча, за іронією долі, вони, можливо, можуть використати першокласну модель, яка гірша, ніж інші п’ятірки. Але, для учасників змагань, здається, що Kaggle в кінцевому рахунку - це азартна гра - удачі не потрібно натрапляти на правильне рішення, потрібно натрапити на те, що відповідає тестовому набору!

Чи можна змінити змагання так, щоб виграли всі найкращі команди, які не можуть бути статистично розрізнені? Або в цій групі могла виграти сама парсимонічна чи обчислювально дешева модель?

— user0
джерело

Деякі люди використовують тестування на прихованому наборі, щоб відхилити фактичні значення тесту. Це дозволяє їм майже ідеально підходити до результатів. Тримання цього запобігає. Моя особиста думка полягає в тому, що різниця між холдингом і non-holdout полягає в тому, щоб позбутися шахраїв.

— EngrStudent

Звичайно, дані тестів повинні бути надані учасникам, але мені цікаво, чи наявність єдиного тестового набору обумовлює результати змагань (для топ- команд) в основному від випадковості.

X

$X$

— користувач0

Оцінки зважуються. Чудова система майже кожного разу випереджає мотлох. Робота вантажівки займає такий невдалий результат, що останній стає першим. Місцевий порядок, можливо, 10 ступенів у рангу чи менше, коли є тисячі учасників, зміниться, якби акція була повторно впорядкована. Ви можете зробити числовий експеримент, щоб показати це.

— EngrStudent

З точки зору корпорації-спонсора, вони не змушені реально реалізовувати виграшну модель. Якщо я правильно пам’ятаю, модель, яка виграла виклик netflix, так і не була реалізована. Вони можуть взяти декількох надійних кандидатів серед кращих моделей і перевірити їх далі.

— Девід Ернст

Відповіді:

Так, ваші міркування правильні. Якщо було обрано інший тестовий набір і змагання повторилися, рейтинг дійсно змінився б. Розглянемо наступний приклад. Усі записи на змагання Kaggle з бінарними мітками просто здогадуються випадковим чином (і, скажімо, незалежно), щоб передбачити їх вихід. Випадково один з них погодиться з темпами більше, ніж інші, хоча прогнозування не відбувається.

Хоча це трохи надумано, ми можемо побачити, що відхилення в кожній з моделей подання означало б, що застосування багатьох таких записів справді просто підходило б до шуму набору виплат. Це говорить нам про те, що (залежно від варіацій окремих моделей) моделі верхнього N, ймовірно, узагальнюють те саме. Це сад розгалужуючих шляхів , за винятком того, що "дослідники" не однакові (але це не має значення).

Чи можна змінити змагання так, щоб виграли всі команди, які не можуть статистично відрізнятись від найкращих показників на тестовому наборі?

Справді.

Одним із підходів (непрактичним, як це є) було б чітко розробити дисперсію даної моделі в кожному записі, що дало б нам ІС щодо їхньої якості проведення.
Інший підхід, який може зайняти велику кількість обчислень, - це завантажувати КІ щодо продуктивності проведення, виставивши API навчання та тестування для всіх моделей.

— VF1
джерело

Чудова відповідь. Чи можете ви детальніше розповісти, як ці два способи можуть бути реалізовані?

— користувач0

Це цікаво: найкраща модель насправді не може бути командою-переможцем.

— користувач0

Явно опрацювання дисперсії неможливо виконати без розподілу даних (я згадую лише, оскільки це пояснює теорію). У цій роботі описано декілька методів (та де вони не вдається) для оцінки точності, включаючи завантажувальну та перехресну перевірку. На відміну від статті, однак у цьому контексті ми не робимо резюме для вибору моделі на навчальному наборі, а для надійного "балу" за комбінованим набором даних для тренувань та тестів.

— VF1

Можливо, два раунди краще для надійної оцінки переможців. Перший знімає 99% найгірших, а другий раунд переоцінює рейтинг, щоб "відполірувати" порядок.

— EngrStudent

Щоб доповнити ідеї тут, ознайомтесь із цим документом переможцем конкурсу NCAA March Madness Kaggle 2014 року. Прокрутіть униз до розділу 4 "Моделювання досліджень". За їхніми словами, якщо передбачувані ймовірності їхньої моделі для кожного поєдинку були насправді справжнім станом природи, їх медіанне розміщення було б 11-м місцем.

— клумбард

Є й інші типи змагань, які в Каглі не мають елементів шансу. Наприклад, цей вкрадений саня Станта .

Це дискретна проблема оптимізації, і вона навіть не має приватних лідерів. Те, що ви бачите в раді громадських лідерів - це кінцеві результати.

У порівнянні з контрольованим навчанням, яке для багатьох людей є легким початком, цей вид конкуренції має більш «жорсткий» характер.

— Хайтао Ду
джерело