Скільки разів ми повинні повторити резюме K-кратного?


18

Я натрапив на цю нитку, дивлячись на відмінності між завантажувальним завантаженням та перехресною валідацією - чудова відповідь та посилання до речі. Що мені цікаво , зараз, якби я повинен був виконати повторне 10-кратне CV слова для розрахунку точності класифікатора в, скільки разів н я повинен повторити?

Чи залежить n від кількості складок? За розміром вибірки? Чи є для цього якесь правило?

(У моєму випадку у мене вибірки розміром до 5000, і якщо я вибираю щось більше n = 20, мій комп'ютер занадто довго займає обчислення.)

Відповіді:


10

Фактор, що впливає, - наскільки стабільна ваша модель - а точніше: прогнози сурогатів.

Якщо моделі повністю стабільні, всі сурогатні моделі дадуть однаковий прогноз для одного і того ж тестового випадку. У цьому випадку ітерації / повтори не потрібні, і вони не приносять жодних поліпшень.

Оскільки ви можете виміряти стабільність прогнозів, ось що я зробив:

  • Встановіть всю процедуру таким чином, щоб зберегти результати кожного повторного повторення / ітерації перехресної перевірки, наприклад, на жорсткому диску
  • Почніть з великої кількості ітерацій
  • Після декількох ітерацій пройдіть попередні результати та подивіться на стабільність / варіацію результатів для кожного циклу.
  • Потім вирішіть, скільки ще повторень потрібно уточнити.

  • Звичайно, ви можете вирішити виконати, скажімо, 5 ітерацій, а потім визначити кінцеву кількість ітерацій, які ви хочете зробити.

(Побічна примітка: я зазвичай використовую> 1000 сурогатних моделей, тому типова кількість повторень / ітерацій буде приблизно 100 - 125).


13

Задайте статистику будь-яке питання, і їх відповідь буде певною формою "це залежить".

Це залежить . Окрім типу моделі (хороший бал!), Кількість навчальних задач та кількість предикторів? Якщо модель призначена для класифікації, великий дисбаланс класу призведе до збільшення кількості повторень. Крім того, якщо я перекомпоную процедуру вибору функції, я б схилявся до більшої кількості повторних проб.

Для будь-якого методу перекомпонування, який використовується в цьому контексті, пам’ятайте, що (на відміну від класичного завантажувального), вам потрібні лише ітерації, щоб отримати «достатньо точну» оцінку середнього рівня розподілу. Це суб'єктивно, але будь-яка відповідь буде.

Дотримуючись класифікації з двома класами на секунду, припустимо, ви очікуєте / сподіваєтесь, що точність моделі буде приблизно 0,80. Оскільки процес перекомпонування є вибіркою оцінки точності (скажімо p), стандартною помилкою буде те, sqrt[p*(1-p)]/sqrt(B)де Bє кількість повторних проб . Для B = 10, стандартна похибка точності становить близько 0,13, а при B = 100ній - 0,04. Ви можете використовувати цю формулу як приблизний посібник для конкретного випадку.

Також врахуйте, що в цьому прикладі дисперсія точності максимально збільшується, чим ближче ви досягаєте 0,50, тому точна модель повинна потребувати менших тиражів, оскільки стандартна помилка повинна бути нижчою, ніж у слабких учнів.

HTH,

Макс


2
Я був би надзвичайно насторожений, щоб застосувати будь-який тип стандартного обчислення помилок у цьому контексті, тому що тут є два джерела дисперсії (нестабільність моделі + обмежений набір тестових випадків), і я думаю, що перевірка повторної вибірки не обійдеться з обмеженим тестом встановити дисперсію: врахувати перехресну перевірку. У кожному циклі всі тестові справи перевіряються рівно один раз. Таким чином, розбіжність між пробіжками повтореного резюме повинно бути обумовлено нестабільністю. Ви не будете спостерігати (ані зменшувати!) Дисперсію через кінцевий тест, встановлений таким чином, але, звичайно, результат все ще підпорядковується.
cbeleites підтримує Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.