Оптимальна кількість складок у


47

Міркування щодо обчислювальної потужності вбік, чи є підстави вважати, що збільшення кількості складок при перехресній валідації призводить до кращого вибору / валідації моделі (тобто, чим більша кількість складок, тим краще)?

Доводячи аргумент до крайності, чи приводить перехресна перевірка виходу з одного виходу обов'язково до кращих моделей, ніж кратна перехресна перевірка?К

Дещо з цього питання: я працюю над проблемою з дуже малою кількістю екземплярів (наприклад, 10 позитивів і 10 негативів), і боюся, що мої моделі можуть не узагальнити / переповнити б так мало даних.



Це запитання не є дублікатом, оскільки воно обмежує невеликі набори даних та "Враховування обчислювальної потужності". Це суворе обмеження, яке робить питання неприйнятним для тих, хто має великі набори даних та алгоритм тренувань з обчислювальною складністю принаймні лінійним за кількістю екземплярів (або прогнозуванням принаймні квадратного кореня кількості екземплярів).
Серж Рогач

Відповіді:


46

Перехресна перевірка, що виходить з виходу, як правило, не призводить до кращої продуктивності, ніж K-кратна, і, швидше за все, до гіршої , оскільки має відносно високу дисперсію (тобто її значення змінюється більше для різних зразків даних, ніж значення для k-кратна перехресна перевірка). Це погано в критерії вибору моделі, оскільки це означає, що критерій вибору моделі може бути оптимізований способами, які просто використовують випадкові зміни в конкретному зразку даних, а не вносять справжні покращення продуктивності, тобто ви, швидше за все, перевищуєте величину критерій вибору моделі. Причина перехресної валідації "відмову від виходу", яка використовується на практиці, полягає в тому, що для багатьох моделей її можна оцінити дуже дешево як побічний продукт відповідності моделі.

Якщо обчислювальні витрати не є передусім проблемою, кращим підходом є виконання повторної перехресної перевірки k-кратного перекладу, де процедура перехресної перевірки k-кратного повторюється з різними випадковими розділами на k нерозбірливі підмножини кожного разу. Це зменшує дисперсію.

Якщо у вас всього 20 моделей, велика ймовірність, що у вас виникне надмірна відповідність критерію вибору моделі, який є значно занедбаним недоліком у статистиці та машинному навчанні (безсоромний модуль: дивіться мою статтю з цієї теми). Можливо, вам буде краще вибрати порівняно просту модель і спробувати не оптимізувати її дуже агресивно, або застосувати байєсівський підхід і середній показник для всіх варіантів моделей, зважених на їх правдоподібність. Оптимізація IMHO є коренем усього зла в статистиці, тому краще не оптимізувати, якщо цього не потрібно, а оптимізувати з обережністю, коли це робити.

Зауважте також, що якщо ви збираєтеся виконати вибір моделі, вам потрібно використовувати щось на зразок вкладеної перехресної перевірки, якщо вам також потрібна оцінка ефективності (тобто вам слід розглянути вибір моделі як невід'ємну частину процедури підгонки моделі та перехресне підтвердження, що це так само).


8
+1. Мені подобається, що повідомлення "оптимізація - корінь усього зла в статистиці" ...
С. Коласа - Відновіть Моніку

5
Дякуємо @DikranMarsupial. Я не дуже стежу за цим. Чому моделі, засвоєні з відпуском-один-аут, мають більшу дисперсію, ніж при регулярній перехресній валідації k-кратного ? Моя інтуїція підказує мені, що оскільки в складках ми зміщуємо лише одну точку даних, тренувальний набір по складках сильно перекривається, тож я би сподівався побачити невелику розбіжність між моделями. Або в іншому напрямку, в K-кратному випадку, якщо K низький, навчальні набори для кожної складочки будуть зовсім іншими, і отримані моделі, швидше за все, будуть різними. Я помиляюся?
Амеліо Васкес-Рейна

Це саме по собі хороше питання, тому я пропоную вам задати це як нове запитання, і я подумаю, як на нього відповісти!
Дікран Марсупіал

Дякую @DikranMarsupial Я дотримувався ваших порад і почав окреме запитання тут .
Амеліо Васкес-Рейна

1
@DikranMarsupial Я думав, що тут зазначу, що в цій відповіді я розпочав ще одну нитку, натхненну вашим коментарем "оптимізації статистики". Ваш коментар змусив мене поглянути на переозброєння з більш широкої точки зору, до якого я звик.
Амеліо Васкес-Рейна

8

Вибір числа K складки, розглядаючи криву навчання

К

К

Підводячи підсумок, якщо крива навчання має значний нахил при заданому розмірі навчального набору, п'яти- або десятикратна перехресна перевірка переоцінить справжню помилку прогнозування. Чи є цей упередження недоліком на практиці, залежить від мети. З іншого боку, перехресне підтвердження виходу з одного виходу має низький ухил, але може мати велику дисперсію.

Інтуїтивна візуалізація на прикладі іграшки

Щоб візуально зрозуміти цей аргумент, розглянемо наступний приклад іграшки, коли ми підганяємо поліном ступеня 4 до галасливої ​​синусоїди:

введіть тут опис зображення

1-±

введіть тут опис зображення

Обговорення аргументу

Продуктивність моделі значно покращується, оскільки розмір тренінгу збільшується до 50 спостережень. Наприклад, збільшення їх кількості до 200 приносить лише невеликі переваги. Розглянемо наступні два випадки:

  1. Якщо наш навчальний набір мав 200 спостережень, 5К

  2. 505К

введіть тут опис зображення

[Оновлення] - коментарі до методології

Ви можете знайти код для цього моделювання тут . Підхід був такий:

  1. сiн(х)+ϵϵ
  2. Ітерація iN
  3. i
    • К
    • Зберігайте середню середньоквадратичну помилку (MSE) в K-складках
  4. iiК
  5. К{5,...,N}

Альтернативний підхід полягає в тому, щоб не проводити повторний вибір нового набору даних при кожній ітерації, а замість цього кожен раз перестановлювати один і той же набір даних. Це, здається, дає схожі результати.



1-МSЕ1-112

МSЕ=Vаr+Бiас2ϵU(-.5,.5)1/12(б-а)21/12
Xavier Bourret Sicotte
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.