Що таке визначення "найкращий", як використовується у терміні "найкраще" та перехресне підтвердження?


16

Якщо ви встановите нелінійну функцію до набору точок (якщо вважати, що для кожної абсциси є лише одна ордината), результат може бути:

  1. дуже складна функція з невеликими залишками
  2. дуже проста функція з великими залишками

Перехресне підтвердження зазвичай використовується для пошуку "найкращого" компромісу між цими двома крайнощами. Але що означає "найкраще"? Це "найімовірніше"? Як би ви навіть почали доводити, що найімовірніше рішення?

Мій внутрішній голос говорить про те, що CV знаходить якесь мінімальне енергетичне рішення. Це змушує мене думати про ентропію, яка, як я нечітко знаю, виникає як у статистиці, так і у фізиці.

Мені здається, що "найкраще" пристосування генерується мінімізацією суми функцій складності та помилок, тобто

minimising m where m = c(Complexity) + e(Error)

Це має сенс? Якими були б функції c і e?

Будь ласка, можете пояснити, використовуючи не математичну мову, тому що я не буду розуміти багато математики.


1
Найкраще - це модель з найменшою помилкою в майбутньому, а перехресне підтвердження дає вам таку оцінку. Причина формул c (Складність) + e (Помилка) полягає в тому, що ви можете використовувати помилку в навчальних даних як оцінку майбутньої помилки, але це занадто оптимістично, тому ви додаєте термін, щоб зробити цю оцінку неупередженою, що зазвичай є деякою функцією складність моделі
Ярослав Булатов

З іншого боку, міркування у світлі явища Рунге (знову фізичні натхнення) приводить до висновку, що майбутня помилка - це щось про складність / Train_Error.

Метт Крауз дав чудову відповідь на подібне запитання тут: stats.stackexchange.com/a/21925/14640 Перефразовуючи свою відповідь: Мета полягає в тому, щоб збалансувати складність моделі з пояснювальною силою моделі, і тому поняття парсиції є кращим міра доцільності моделі, ніж концепція, найкраще підходить до помилок. Це пояснюється тим, що дуже складна модель може переповнювати дані, не маючи змоги передбачити або пояснити нові результати.
Асад Ебрагім

Відповіді:


6

Я думаю, що це відмінне питання. Я збираюсь парафазувати це лише для того, щоб переконатися, що я правильно це зробив:

Здавалося б, існує маса способів вибору функції покарання складності та функції покарання помилок e . Вибір "найкращий". Що найкраще навіть означає ?ce

Думаю, що відповідь (якщо така є) перенесе вас за межі просто перехресної перевірки. Мені подобається, як це питання (і тема в цілому) гарно пов'язується з бритвою Оккама та загальною концепцією парцювання, яка є фундаментальною для науки. Я аж ніяк не експерт у цій галузі, але мені здається, що це питання надзвичайно цікаве. Найкращий текст, який я знаю в таких питаннях, - це " Універсальний штучний інтелект " Маркуса Хаттера (не задайте мені жодних запитань з цього приводу, я більшість із них не читав). Я пішов на розмову Хаттера і пару років тому і був дуже вражений.

Ви праві, думаючи, що десь є мінімальний аргумент ентропії ( якийсь спосіб використовується для функції складності покарання ). Хаттер виступає за використання складності Колмогорова замість ентропії. Також визначення Хаттера як "найкращий" (наскільки я пам’ятаю) - це (неофіційно) модель, яка найкраще прогнозує майбутнє (тобто найкраще прогнозує дані, які будуть спостерігатися в майбутньому). Я не можу пригадати, як він формалізував це поняття.c


Ви розумієте питання. Я перейду за посиланнями.
барт

Ви повинні знати, що ці посилання навряд чи перевезуть вас у будь-який "практичний" спосіб. Якщо ви намагаєтесь побудувати щось за допомогою перехресної перевірки (або якогось іншого вибору моделі), то на практиці, ймовірно, завжди зводиться до чогось евристичного і трохи спеціального (хоча я згоден, це незадовільно).
Robby McKilliam

Зараз ми кудись дістаємось. en.wikipedia.org/wiki/Minimum_message_length, здається, те, про що я думав. Спасибі!
барт

Не хвилюйтесь. Це просто рефлексія, а не практичне.
барт

9

Я запропоную коротку інтуїтивну відповідь (на досить абстрактному рівні), поки кращу відповідь не запропонує хтось інший:

По-перше, зауважте, що складні функції / моделі досягають кращого пристосування (тобто мають нижчі залишки), оскільки вони використовують деякі локальні особливості (шум думки) набору даних, які відсутні в усьому світі (продумуйте систематичні зразки).

По-друге, при виконанні перехресної перевірки ми розділили дані на два набори: навчальний набір і набір перевірки.

Таким чином, коли ми виконуємо перехресну перевірку, складна модель може не дуже добре передбачити, оскільки за визначенням складна модель буде використовувати локальні особливості навчального набору. Однак локальні особливості навчального набору можуть бути дуже різними порівняно з локальними особливостями набору перевірок, що призводить до поганої прогнозованої роботи. Тому ми маємо тенденцію вибирати модель, яка фіксує глобальні особливості тренінгу та набори валідації даних.

Підсумовуючи, перехресне підтвердження захищає від надмірного вибору, вибираючи модель, яка фіксує глобальні зразки набору даних, і уникаючи моделей, що використовують деякі локальні особливості набору даних.


@Srikant Я все це знаю. Резюме - це засіб для пошуку "найкращого". Що таке визначення "кращий"?
барт

@bart 'краща модель' = модель, яка 'найкраще' фіксує глобальні зразки, уникаючи локальних особливостей даних. Це найкраще, що я можу зробити для не математичного опису. Можливо, хтось інший може розробити трохи більше або бути більш конкретним.

@bart: "кращий" означає функцію, яка найкраще підходить для навчальних даних, яка добре "узагальнює" дані валідації / невидимого тесту. Я думаю, що це цілком зрозуміло з відповіді Шріканта. Існує багато способів формально визначити хорошу поведінку узагальнення. У неформальному розумінні ви можете вважати це як пошук функції, яка є "гладкою" і не сильно хиткою. Намагання підходити виключно до даних тренувань може призвести до неприємного вигляду, тоді як плавність зазвичай гарантує, що функція буде добре працювати як на даних тренувань, так і на валідації / тесті.
ebony1

@ebony: Ви пропустите точку. Я перефразував це питання, сподіваюсь, зробити його зрозумілішим
барт

5

У загальному розумінні машинного навчання відповідь досить проста: ми хочемо побудувати модель, яка матиме найвищу точність при прогнозуванні нових даних (невидимих ​​під час навчання). Оскільки ми не можемо безпосередньо перевірити це (у нас немає даних про майбутнє), ми робимо моделювання Монте-Карло такого тесту - і це, в основному, ідея під перехресною валідацією.

Можливо, є деякі питання щодо того, що таке точність (наприклад, бізнес-клієнт може стверджувати, що перевищення коштує 5 євро за одиницю, і підкреслити 0,01 € за одиницю, тому краще створити менш точну, але більш підкреслену модель), але в цілому це є досить інтуїтивно зрозумілим відсотком правдивих відповідей у ​​класифікації та широко використовуваною поясненою дисперсією регресії.


3

Дуже багато людей мають відмінні відповіді, ось мій 0,02 дол.

Є два способи розглянути "найкращу модель" або "вибір моделі", кажучи статистично:

1 Пояснення максимально просте, але не простіше (Attrib. Einstein)

- This is also called Occam's Razor, as explanation applies here.
- Have a concept of True model or a model which approximates the truth
- Explanation is like doing scientific research


2 Прогнозування - інтерес, подібний до інженерної розробки.

- Prediction is the aim, and all that matters is that the model works
- Model choice should be based on quality of predictions
- Cf: Ein-Dor, P. & Feldmesser, J. (1987) Attributes of the performance of central processing units: a relative performance prediction model. Communications of the ACM 30, 308–317.

Широко поширена (помилкова) концепція:

Вибір моделі еквівалентний вибору найкращої моделі

Для пояснення нам слід насторожити, щоб існувало кілька (приблизно) однаково хороших пояснювальних моделей. Простота допомагає як у передачі понять, втілених у моделі, так і в тому, що психологи називають узагальненням, здатність «працювати» у сценаріях, дуже відрізняється від тих, в яких вивчалася модель. Тож є премія за кількома моделями.

Для прогнозування: (Доктор Ріплі) хорошою аналогією є вибір між думками експертів: якщо у вас є доступ до великої групи експертів, як би ви використовували їх думку?

Перехресне підтвердження дбає про аспект прогнозування. Детальніше про резюме див. У цій презентації доктора Б.Д. Ріплі, презентації доктора Брайана Д. Ріплі щодо вибору моделі

Цитування: Будь ласка, зауважте, що все у цій відповіді відбувається з цитованої вище презентації. Я великий шанувальник цієї презентації і мені це подобається. Інші думки можуть відрізнятися. Назва презентації: "Вибір серед великих класів моделей" і була проведена на симпозіумі на честь 80-річчя Джона Нельдера, Імперський коледж, 29/30 березня 2004 р., Доктор Брайан Д. Ріплі.


3

Тут велика дискусія, але я думаю, що перехресне підтвердження відрізняється від відповідей поки що (я думаю, що mbq і я на одній сторінці). Тож я покладу свої два центи, ризикуючи забруднити воду ...

Перехресне підтвердження - це статистична методика оцінки змінності та упередженості, зумовленої помилкою вибірки, у здатності моделі підходити та прогнозувати дані. Таким чином, "найкращою" була б модель, яка забезпечує найнижчу помилку узагальнення, яка була б в одиницях змінності та зміщення. Такі методи, як байосіанське та середнє моделювання Bootstrap, можуть використовуватися для оновлення моделі алгоритмічним способом на основі результатів крос-перевірки.

Цей FAQ дає хорошу інформацію для більш детального контексту того, що відповідає моїй думці.


1

Функція помилки - це помилка вашої моделі (функції) на навчальних даних. Складність є деякою нормою (наприклад, квадратом l2 норми) функції, яку ви намагаєтеся засвоїти. Мінімізація терміну складності, в основному, сприяє гладким функціям, які добре справляються не тільки з навчальними даними, але і з тестовими даними. Якщо ви представляєте свою функцію набором коефіцієнтів (скажімо, якщо ви робите лінійну регресію), то покарання складності за допомогою квадратної норми призведе до малих значень коефіцієнта у вашій функції (покарання інших норм призводить до різних понять контролю складності).


1

(p,q)1,λ>0

(1)Argmin.β|λ,x,y||ym(x,β)||p+λ||β||q

еквівалентно

(2)Argmin.β|λ,x,y||ym(x,β)||p

s.t. ||β||qλ

||β||qλq=1,2β^β^

λλ=(x,y)(1)(2)λβ^|λ

e()=||ym(x,β)||pp=1p=2m()


1
Є λпараметр, який можна вибрати безкоштовно?
Robby McKilliam

@Robby:> дякую. Я трохи доповнив текст, щоб зробити чітке розмежування параметрів та гіперпараметрів.
user603

@kwak: Вибачте, кажу, що не маю поняття, що це означає. Що означають символи p, q, лямбда, x, y, m та бета-версія?
барт

@bart:> Моя відповідь по суті така ж, як і відповідь Сріканта. Там, де він пропонує інтуїтивне пояснення, я хотів би додати більш суворий варіант для переваг майбутніх відвідувачів, які можуть мати те саме питання, що і ви, але більш знайомі з математикою, ніж неформальна мова. Усі названі вами символи визначені у моїй відповіді (хоча, знову ж таки, це робиться формально).
user603

@kwak: Де, наприклад, визначено p?
барт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.