Яким чином перехресне підтвердження подолало проблему надмірності?

Чому процедура перехресної перевірки долає проблему перевиконання моделі?

regression model-selection cross-validation

— user3269
джерело

Подивіться на твори Алена Селісса . Наскільки я читаю (його надто мало на жаль) його робота стосується достоїнства перехресної перевірки.

— mpiktas

@mpiktas Дійсно, і одна його робота вже була запропонована для CVJC, mendeley.com/groups/999241/crossvalidated-journal-club/papers .

— chl

Відповіді:

Я не можу придумати достатньо чіткого пояснення лише на даний момент, тому залишу це комусь іншому; однак перехресне підтвердження не повністю долає проблему надмірного підбору при виборі моделі, вона просто зменшує її. Помилка перехресної перевірки не має незначної дисперсії, особливо якщо розмір набору даних невеликий; іншими словами, ви отримуєте дещо інше значення залежно від конкретного зразка даних, який ви використовуєте. Це означає, що якщо ви маєте багато ступенів свободи у виборі моделі (наприклад, безліч функцій, з яких можна вибрати невелику підмножину, безліч гіпер-параметрів для налаштування, багато моделей, з яких можна вибрати), ви зможете перевиконати критерій перехресної перевірки оскільки модель налаштована так, щоб використовувати цю випадкову варіацію, а не способами, які дійсно покращують продуктивність, і ви можете закінчити модель, яка працює погано. Для обговорення цього дивКаулі і Талбот "Про перевиконання у виборі моделі та подальших зміщеннях вибору в оцінці продуктивності", JMLR, vol. 11, с. 2079−2107, 2010

На жаль, перехресне підтвердження, швидше за все, підвело вас, коли у вас є невеликий набір даних, саме тоді, коли вам потрібна перехресна перевірка найбільше. Зауважте, що перехресна перевірка k-кратна, як правило, є більш надійною, ніж перехресна валідація, що випускається один раз, оскільки вона має меншу дисперсію, але може бути дорожчою для обчислення для деяких моделей (саме тому LOOCV іноді використовується для вибору моделі, навіть якщо він має велику дисперсію).

— Дікран Марсупіал
джерело

Я вважав, що перехресне підтвердження просто застосовує іншу (неявну) модель для даних. Ви можете, безумовно, показати це за допомогою "двоюрідного брата" CV, непараметричного завантажувального каскаду (який базується на моделі Діріхле Процес з параметром концентрації 0).

— ймовірністьлогічний

Цікава ідея. На мій погляд, поділ (на цікаві для мене моделі) поділ на параметри та гіперпараметри є обчислювальним, а не логічним; гіперпараметри все ще є параметрами, які потрібно пристосувати до даних, і те, що це робити опосередковано за допомогою перехресної перевірки, насправді цього не змінює. У останньому документі я дослідив налаштування того, що зазвичай є гіпер-параметрами моделі ядра, використовуючи навчальний критерій та додавши додатковий термін регуляризації, щоб уникнути перевиконання критерію вибору моделі (LOOCV), і він працював досить добре.

— Дікран Марсупіал

Чому резюме в k-кратному рівні дорожче, ніж випускний? Мій досвід (і моя інтуїція) говорить про інше. Оскільки в резюме k-кратно ми робимо k-тести, де б у L1O ми робимо N (>> k) тести, і зазвичай навчальна частина займає більше часу через деяку інверсію матриці, тож чи L1O не є дорогим варіантом?

— Джефф

Вихід із нього може бути виконаний (або наближений) як побічний продукт підгонки моделі до всього набору даних з дуже невеликими додатковими витратами для широкого кола моделей (наприклад, лінійна регресія). Я відредагую відповідь, щоб зробити це більш зрозумілим.

— Дікран Марсупіал

Я розумію, що випуск-один-один полягає в тому, що це резюме в k-кратному стані - найкраща, але найбільш обчислювально дорога форма резюме k-кратного, де k = розмір набору даних.

— Даніель Вінтерштейн

Моя відповідь більш інтуїтивна, ніж сувора, але, можливо, це допоможе ...

Як я розумію, переозброєння є результатом вибору моделі, заснованої на навчанні та тестуванні з використанням одних і тих же даних, де у вас є гнучкий механізм підгонки: ви підходите до свого зразка даних так щільно, що ви підходите до шуму, ексклюзивів тощо інша дисперсія.

Розбиття даних на навчальний і тестовий набір не дає цього робити. Але статичний розкол не використовує ваші дані ефективно, і сам розкол може стати проблемою. Перехресне підтвердження зберігає перевагу даних, які не належать до винагороди, точних пристосувань до навчальних даних, а також використовує дані, які ви маєте максимально ефективно (тобто всі ваші дані використовуються як дані про навчання та тестування, тільки не в одному циклі).

Якщо у вас гнучкий механізм підгонки, вам потрібно обмежити вибір своєї моделі, щоб вона не сприяла «ідеальному», а складному підходить якось. Ви можете це зробити за допомогою AIC, BIC або будь-якого іншого способу штрафування, який безпосередньо карає складність, або ви можете зробити це з CV. (Або ви можете це зробити, використовуючи примірний метод, який не дуже гнучкий, що є однією з причин, що лінійні моделі приємні.)

Інший спосіб погляду на це полягає в тому, що навчання полягає в узагальненні, а надто тісний прийом в деякому сенсі не є узагальнюючим. Змінюючи те, на чому ви дізнаєтесь і на чому ви тестуєтесь, ви узагальнюєте краще, ніж якби ви дізналися лише відповіді на певний набір питань.

— Уейн
джерело

З точки зору Байєса, я не настільки впевнений, що перехресне підтвердження робить все, що "правильний" баєсовський аналіз не робить для порівняння моделей. Але я не на 100% впевнений, що це робить.

$M_A$ $M_B$ $D$ $I$

\frac{P (M_{A} | D, I)}{P (M_{B} | D, I)} = \frac{P (M_{A} | I)}{P (M_{B} | I)} \times \frac{P (D | M_{A}, I)}{P (D | M_{B}, I)}

$\frac{P(M_A|D,I)}{P(M_B|D,I)}=\frac{P(M_A|I)}{P(M_B|I)}\times\frac{P(D|M_A,I)}{P(D|M_B,I)}$

$P(D|M_A,I)$

П (D | М_{А}, Я) = \int П (D, θ_{А} | М_{А}, Я) г θ_{А} = \int П (θ_{А} | М_{А}, Я) П (D | М_{А}, θ_{А}, Я) г θ_{А}

$P(D|M_A,I)=\int P(D,\theta_A|M_A,I)d\theta_A=\int P(\theta_A|M_A,I)P(D|M_A,\theta_A,I)d\theta_A$

Що називається попереднім прогнозним розподілом . Це в основному говорить про те, наскільки добре модель спрогнозувала фактично спостережувані дані, саме це і робить перехресне підтвердження, причому "попереднє" замінюється на встановлену модель "навчання", а "дані" замінюються на "тестування" дані. Отже, якщо модель B спрогнозувала дані краще, ніж модель A, її задня ймовірність збільшується відносно моделі А. Звідси виходить, що теорема Байєса насправді зробить перехресну перевірку, використовуючи всі дані, а не підмножину. Однак я не повністю переконаний у цьому - здається, ми отримуємо щось дарма.

Ще одна особлива особливість цього методу полягає в тому, що він має вбудовану «оккаму бритву», задану співвідношенням констант нормалізації попередніх розподілів для кожної моделі.

Однак перехресне підтвердження здається цінним для жахливого старого "чогось іншого" або того, що іноді називають "неправильним визначенням моделі". Мене постійно мучить те, чи має значення це "щось інше" чи ні, бо, здається, це має мати значення - але це залишає вас паралізованим без рішення взагалі, коли це, мабуть, має значення. Просто щось, що може принести вам головний біль, але ви нічого не можете з цим зробити, окрім думки про те, що це може бути "щось інше", і спробувати це у вашій моделі (щоб вона більше не була частиною "чогось іншого") .

Крім того, перехресне підтвердження - це спосіб насправді зробити байєсівський аналіз, коли інтеграли, наведені вище, смішно важкі. І перехресне підтвердження "має сенс" майже для когось - це "механічне", а не "математичне". Тож легко зрозуміти, що відбувається. А також, здається, змусити голову зосередитися на важливій частині моделей - робити хороші прогнози.

— ймовірністьіслогічна
джерело

Ключовим є питання неправильного визначення моделі. Байєсівські методи (особливо максимізація доказів Бейса "Баєса" можуть працювати дуже погано за умови неправильної уточнення моделі, тоді як перехресна перевірка, здається, працює досить добре майже весь час. Виграш, коли припущення (пріори) є "правильними", як правило, набагато менший, ніж штраф, коли вони "неправильні", тому перехресне підтвердження виграє в середньому (оскільки воно майже не передбачає припущень). Це майже не так інтелектуально, як задоволення! ; o)

— Dikran Marsupial

@dikran - цікаво. Я не дуже впевнений, що згоден з тим, що ви говорите. Так ви кажете, якщо модель неправильно визначена, то перехресне підтвердження з цією ж моделлю краще, ніж використання теореми Байєса? Я хотів би бачити приклад цього.

— ймовірністьлогічний

@probabiltyislogic Я не думаю, що це особливо нове спостереження, Расмуссен та Вільямс згадують про це на сторінці 118 своєї чудової книги Гауссового процесу (хоча це, по суті, посилання на аналогічний коментар у монографії Грейс Вахби про сплайни). По суті гранична ймовірність - це ймовірність даних, що даються припущеннями моделі, тоді як вірогідність XVAL - це оцінка ймовірності даних, незалежно від припущень моделі, отже, більш достовірна, коли припущення не відповідають дійсності. Правильне емпіричне дослідження було б корисним.

— Дікран Марсупіал

@probabilityislogic Мені слід додати, що мені подобається байєсівський підхід до вибору моделі, але я майже завжди використовував перехресну перевірку на практиці просто тому, що це, як правило, дає результати, які (статистично) є настільки ж хорошими або кращими, ніж байєсівські підходи.

— Дікран Марсупіал

X_{i}

$X_i$

y_{i}

$y_i$

X_{i}

$X_i$

p (y_{i} | X_{i}, θ_{y}) p (X_{i} | θ_{X})

$p(y_i|X_i, \theta_y)p(X_i|\theta_X)$ . Другий термін має набагато більший внесок у ймовірність, тому, якщо модель добре працює там і кусає її на передбаченні, гранична ймовірність не буде хвилюватися.

— JMS