Чи корельовані вхідні дані призводять до перевиконання нейронних мереж?


13

На мою думку, корельовані вхідні дані повинні призвести до надмірного розміщення в нейронних мережах, оскільки мережа засвоює кореляцію, наприклад, шум у даних.

Це правильно?

Відповіді:


11

Насправді ні.

Питання як таке трохи загальне і поєднує дві речі, які насправді не пов'язані між собою. Перевизначення зазвичай розуміється як протилежна якість до узагальнення опису; в тому сенсі, що переоснащена (або перетренована) мережа матиме меншу потужність узагальнення. Ця якість визначається насамперед мережевою архітектурою, навчанням та процедурою перевірки. Дані та його властивості вводяться лише як "щось, на чому відбувається тренувальна процедура". Це більш-менш "знання з текстової книги"; ви можете спробувати "Вступ до статистичного навчання" Джеймса, Віттена, Хасті та Тібшірані. Або "Розпізнавання візерунків" Бішопа (моя улюблена книга коли-небудь на загальну тему). Або "Розпізнавання візерунків та машинне навчання", також Bishop.

Для самої кореляції: Розглянемо вхідний простір, що має певний розмір. Незалежно від того, яку трансформацію ви використовуєте, розмірність залишиться такою ж - лінійна алгебра так говорить. В одному випадку дана база буде абсолютно некорельованою - це те, що ви отримуєте, коли декорелюватимете змінні або просто застосуєте PAT (Принципова трансформація осі.) Візьміть для цього будь-яку лінійну книгу алгебри.

Оскільки нейронна мережа з відповідною архітектурою може моделювати будь-яку (!) Функцію, ви можете сміливо припускати, що вона також може спочатку моделювати PAT, а потім робити все, що вона також повинна робити - наприклад, класифікацію, регресію тощо.

Ви також можете вважати кореляцію функцією, яка повинна бути частиною опису нейронної мережі, оскільки це властивість даних. Характер кореляції насправді не важливий, якщо тільки це не є частиною даних. Це насправді була б інша тема - ви повинні моделювати чи кількісно оцінювати щось на зразок шуму на вході та враховувати це.

Отже, у підсумку немає. Співвіднесені дані означають, що ви повинні працювати більше, щоб зробити обробку даних технічно простішою та ефективнішою. Можливе перевиконання, але цього не відбудеться, оскільки є відповідні дані.


Вибачте, але я все одно не зрозумів чому. Також мій сумнів трохи загальний. Я шукав відповідь "Чи можуть корельовані вхідні дані бути шкідливими для нейронних мереж?". Тут ви стверджуєте, що "ви можете сміливо припускати, що він також може вперше моделювати PAT". Але як ви робите це припущення. І тоді моє наступне питання - що відбувається, якщо нейронна архітектура не спроможна моделювати PAT?
bytestorm

@bytestorm: ваше перше питання відрізняється від оригіналу. Співвідношення даних може обмежити продуктивність вашої ANN (як і для інших методів). Але це не притаманна властивість ANN. Щодо другого питання, то це менше припущення, а лише зразкове пояснення, чому ANN можуть моделювати PAT. На практиці я б не робив цього так, ні рекомендував цього робити.
херувим

6

херувим є правильним у відношенні його твердження щодо перенапруги. Однак я думаю, що обговорення сильно корельованих особливостей і ANN надмірно спрощує питання.

Так, теоретично вірно, що ANN може наближати будь-яку функцію. Однак на практиці не годиться включати численні сильно корельовані функції. Це зробить багато скорочень у моделі. Включення таких скорочень призведе до зайвих складнощів і, таким чином, може збільшити кількість місцевих мінімумів. Зважаючи на те, що функція втрат ANN не є по суті гладкою, введення зайвої шорсткості не є чудовою ідеєю.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.