Перехресне підтвердження простою англійською мовою?


Відповіді:


54

Розглянемо таку ситуацію:

Я хочу спіймати метро, ​​щоб поїхати до свого офісу. Мій план - взяти машину, припаркуватися в метро, ​​а потім поїхати на поїзд, щоб поїхати до мого офісу. Моя мета - ловити потяг о 8.15 щодня, щоб я міг вчасно дістатися до свого офісу. Мені потрібно вирішити наступне: (а) час, в який мені потрібно виїхати з дому та (б) маршрут, який я пройду, щоб проїхати до станції.

У наведеному вище прикладі у мене є два параметри (тобто час відправлення з дому та маршрут, який слід відправити на станцію), і мені потрібно вибрати ці параметри, щоб я дійшов до станції о 8.15 ранку.

Для вирішення вищезазначеної проблеми я можу спробувати різні набори "параметрів" (тобто різну комбінацію часу відправлення та маршруту) у понеділок, середу та п'ятницю, щоб побачити, яка комбінація є "найкращою". Ідея полягає в тому, що коли я визначив найкращу комбінацію, я можу використовувати її щодня, щоб досягти своєї мети.

Проблема переобладнання

Проблема вищезгаданого підходу полягає в тому, що я можу переоцінити, що по суті означає, що найкраща комбінація, яку я визначаю, може бути певним чином для понеділка, ср і п’ятниці, і ця комбінація може не працювати для вт і чт. Переобладнання може статися, якщо в моєму пошуку найкращого поєднання часів і маршрутів я використовую певний аспект дорожньої ситуації в пн / ср / пт, який не трапляється в четвер і вт.

Одне рішення для перевиконання: перехресне підтвердження

Перехресне підтвердження - це одне рішення для пристосування. Ідея полягає в тому, що після того, як ми визначили найкращу комбінацію параметрів (у нашому випадку та маршруту), ми перевіряємо продуктивність цього набору параметрів в іншому контексті. Тому ми можемо захотіти провести тест на Вт і Чт, щоб переконатися, що наші вибори працюють і в ці дні.

Розширення аналогії до статистики

У статистиці у нас є аналогічне питання. Ми часто використовуємо обмежений набір даних для оцінки невідомих нам параметрів. Якщо ми перевиконаємо, то наші оцінки параметрів будуть працювати дуже добре для існуючих даних, але не так добре, коли ми використовуємо їх в іншому контексті. Таким чином, перехресне підтвердження допомагає уникнути вищезазначеного питання щодо придатності, підтверджуючи, що оцінки параметрів не є унікальними для даних, які ми використовували для їх оцінки.

Звичайно, перехресне підтвердження не є ідеальним. Повернувшись до нашого прикладу метро, ​​може статися так, що навіть після перехресної перевірки, наш найкращий вибір параметрів може не працювати на один місяць за лінією через різні проблеми (наприклад, будівництво, зміна обсягу руху з часом тощо).


2
З технічної точки зору це перевірка випробовувань, але можна уявити, як розширити приклад метрополітену на контекст перехресної перевірки. Якщо це допоможе, я перепишу приклад та решту тексту, щоб бути специфічними для перехресної перевірки.

@ srikant .. слово, що переозброює слово, підказує мені, що щось має "надмірно" сенс. Чи немає змінних? Мені шкода, що я чув багато разів цей текст, і я скористався б цією нагодою, щоб вияснити це з вами.
ayush biyani

1
Я думаю, що цю відповідь можна було б покращити, додавши концепцію складок, що є ключовим для того, чим CV відрізняється від тестування проведення. У прикладі (використовуючи абревіатуру M для понеділка, T для вівторка, ..., R для четверга, ...): Отже, ви дивитесь на TWRF за найкращою комбінацією і бачите, як це працює на M, а потім MWRF і бачите, як це працює над T і т. д. Тому кожен день використовується як частина проблеми чотири рази і як перевірка проблеми один раз, але ніколи як проблема і перевірка в одному раунді.
Уейн

43

Я думаю, що це найкраще описати із наступним малюнком (у даному випадку, що показує k-кратну перехресну перевірку):

alt текст

Перехресне підтвердження - це техніка, що використовується для захисту від перевищення в системі прогнозування, особливо у випадку, коли кількість даних може бути обмеженою. Під час перехресної перевірки ви робите фіксовану кількість складок (або розділів) даних, проводите аналіз на кожній складці та потім оцінюєте загальну оцінку помилок.


2
Здається, враховуючи дискусії в інших місцях на цьому веб-сайті, що перехресне підтвердження k-кратного перекладу - це лише один тип перехресної перевірки, і описуючи це, не робиться загальна робота з опису, що таке перехресна перевірка.
russellpierce

3
@drknexus: Це справедливо, але я зазначу, що це k-кратно, і я хотів зробити візуалізацію процесу, щоб допомогти пояснити це.
Шейн

Швидке уточнення: чи так це, що nfold = 4 означає 25% для тестового набору; nfold = 5 означає 20% для тестового набору; nfold = 10 означає 10% для тестового набору і так далі: nfold = n означає, що 100 / n відсотків переходить у тестовий набір?
johnjps111

9

"Уникайте напам’ять своїх навчальних даних, переконуючись, що навчена модель працює на незалежних даних."


3
Це мотивація для відеозапису, а не опис самого резюме.
jbaums

6

Скажімо, ви досліджуєте якийсь процес; ви зібрали деякі дані, що описують це, і ви створили модель (статистичну або ML, не має значення). Але тепер, як судити, чи це нормально? Ймовірно, це добре підходить до даних, на яких він був побудований, тому ніхто не повірить, що ваша модель настільки чудова, як ви думаєте.
Перша ідея - відокремити підмножину ваших даних і використовувати їх для тестування побудови моделі за вашим методом на решту даних. Тепер результат, безумовно, не підходить, але, особливо для невеликих наборів, ви могли б (не) пощастило і намалювати (менш) простіші випадки для тестування, що спростить (складніше) прогнозувати ... Також ваша точність / Оцінка помилок / корисності марно для порівняння / оптимізації моделі, оскільки ви, напевно, нічого не знаєте про її розподіл.
Коли ви сумніваєтесь, використовуйте грубу силу, тому просто повторіть вищезгаданий процес, зібрати кілька оцінок точності / помилок / корисності та порівняти їх - і так ви отримаєте перехресну перевірку. Серед кращої оцінки ви також отримаєте гістограму, тому ви зможете наблизити розподіл або виконати якісь непараметричні тести.
І це воно; подробиці тестування поїздів є причиною різних типів CV, але, крім рідкісних випадків і невеликих перепадів міцності, вони досить рівнозначні. Дійсно, це величезна перевага, адже це робить його методом, що забезпечує захист від куль; дуже важко це обдурити.


3

Оскільки у вас немає доступу до тестових даних під час навчання, і ви хочете, щоб ваша модель добре справлялася з невидимими тестовими даними, ви "робите вигляд", що у вас є доступ до деяких тестових даних, повторно підміняючи невелику частину ваші дані тренінгу, протримайте цей набір під час тренування моделі, а потім розглядайте протриманий набір як проксі до тестових даних (і вибирайте параметри моделі, які дають найкращі показники для витриманих даних). Ви сподіваєтесь, що випадковим чином відібравши різні підмножини з навчальних даних, ви можете зробити їх схожими на тестові дані (в середньому сенсі поведінки), а тому вивчені параметри моделі будуть добре також для тестових даних (тобто, вашої моделі добре узагальнюється для небачених даних).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.