Він говорить про "ефективну складність мережі". Він фактично посилається на розмір ваг мережі. Це можна зрозуміти через принцип мінімальної довжини опису . Але перш ніж я вступаю в це, інтуїція полягає в тому, що чим більше ваги, тим більше різних функцій може вмістити ваша мережа, і тим вище ступінь свободи (і ефективної складності).
У цій главі він розповідає про регуляризацію, яка є технікою ефективного зменшення ризику переобладнання, вимагаючи, щоб ваги були якомога меншими. В загальному,
p ( D | w ) = ∏нр ( тн| хн, w ) = ∏ндосвід( β2[ тн- у( хн, ш ) ]2) / ЗD( β)
шZD( β)
p ( w ) = exp( - α | | w | |22) / ЗW( α )
аргмаксшp ( w | D )
p(w|D)=p(D|w)p(w)
Zw
argminw∑nβ2[tn−y(xn,w)]2+α2∑iw2i
Загалом, ви вважаєте, що оцінка ПДЧ еквівалентна наступному,
wMAP=argminw−log2P(D|w)−log2(w)
Права частина виразу може бути інтерпретована як кількість бітів, необхідних для опису вашого класифікатора. Перший термін представляє кількість бітів, необхідних для кодування помилок, які ваша мережа робить у навчальних даних. Другий представляє кількість бітів, необхідних для кодування ваг.
Таким чином, оцінка ПДЧ еквівалентна вибору найбільш компактного можливого представлення. Іншими словами, ви шукаєте набір ваг, які враховують дані тренувань максимально вірно, які можуть бути виражені найменшою кількістю біт.
Зауважте, що це ще одна форма проблеми з ухилом / дисперсією: чим більше вага, тим нижчий перший термін, тому що мережа може краще відповідати навчальним даним (переозброєння). Але в той же час чим вище складність ваг. Чим менше ваги, тим менша складність мережі, але тим вище термін помилки (зміщення). Чим більша кількість бітів, необхідних для кодування помилок мережі.
Сподіваюсь, це дає вам достатньо гарне уявлення про те, про що йдеться.
PS додав довший аргумент до тривалої дискусії Можливо, я вас неправильно зрозумів. Дозвольте спробувати пояснити себе востаннє.
Попередні засоби для зважування представляють припущення, яке ми робимо щодо функції, яку ви хочете помістити. Чим більший попередній (тобто ваги), тим ширший гауссовий, тобто тим більше можливих конфігурацій, які вважаються відповідними мережі.
Розглянемо випадок регресії (як у статті, про яку я згадував). Низька помилка генералізації означає, що мережа здатна відображати невидимі зразки дуже близько до фактичних значень. Якщо ви підходите до прямої, то достатньо полінома першого порядку (низька складність). Тепер ви також можете встановити дані з поліномом вищого порядку (нехай коефіцієнти вищого порядку відрізняються від нуля). Складність мережі вища, тому що ви допускаєте коливання, для більш складної кривої. Тим не менше, якщо коефіцієнти, що відповідають умовам вищого порядку, є досить низькими, мережа може наблизити пряму до прямої лінії, що призведе до хорошого узагальнення.
Отже, вся суть MDL полягає в тому, щоб зробити вагу якомога меншою, доки помилка генералізації може мене мінімізувати.
Нарешті, цитую вас: "Я все ще вважаю занепокоєним аргумент про те, що в міру того, як модель починає переповнювати, її можливості моделювати інші функції зростатимуть. Я думаю, що це зовсім навпаки, тому що модель, яка переповнює, не може узагальнити, щоб застосувати її до нової інформація. ". Так, він може моделювати ДРУГІ, складніші функції, але він не зможе правильно моделювати цю функцію. На малюнку 5.12 у книзі помилка спочатку зменшується, оскільки розмір ваги збільшується (зменшення упередженості). До заданої точки, коли вона знову починає зростати (зменшення узагальнення, надмірність).