Чому глибоке навчання не враховується, незважаючи на поганий розмір ВК?


86

Вапник-Червоненкис (КІ) -размерность формули для нейронних мереж в діапазоні від до , з в гіршому випадку, де являє собою число ребер і - кількість вузлів. Кількість навчальних зразків, необхідних для отримання надійної гарантії узагальнення, лінійна з розміром VC.O(E)O(E2)O(E2V2)EV

Це означає, що для мережі з мільярдами ребер, як і у випадку успішних моделей глибокого навчання, навчальному набору даних потрібні мільярди навчальних зразків у кращому випадку, до чотирикутників у гіршому випадку. Найбільший навчальний набір наразі налічує близько ста мільярдів зразків. Оскільки навчальних даних недостатньо, то моделі глибокого навчання навряд чи узагальнюють. Натомість вони переповнюють дані тренувань. Це означає, що моделі не будуть добре працювати на даних, відмінних від даних про навчання, що є небажаною властивістю для машинного навчання.

Зважаючи на неможливість глибокого навчання узагальнити, згідно з розмірним аналізом ВК, чому результати глибокого навчання настільки зашифровані? Просто наявність високої точності на якомусь наборі даних не означає дуже багато саме по собі. Чи є щось особливе в архітектурах глибокого навчання, що значно зменшує розмір VC?

Якщо ви не вважаєте, що аналіз розмірності ВК є релевантним, будь ласка, надайте докази / пояснення, що глибоке навчання є узагальнюючим та не є надмірним. Тобто це добре спогади І точність, або просто гарний відклик? 100% відкликання банально досягти, як і 100% точність. Отримати обох близько 100% дуже складно.

Як зворотний приклад, ось дані, що глибоке навчання є надмірним. Модернітську модель легко обдурити, оскільки вона містить детермінований / стохастичний шум. Дивіться наступне зображення для прикладу надягання.

Приклад недоопрацювання, пристосування та доповнення.

Також див. Відповіді на це запитання нижчих позицій, щоб зрозуміти проблеми з моделлю набору, незважаючи на хорошу точність даних тесту.

Деякі відповіли, що регуляризація вирішує проблему великого розміру ВК. Дивіться це питання для подальшого обговорення.


Коментарі не для розширеного обговорення; ця розмова переміщена до чату .
DW

7
Я не думаю, що питання, чому щось хороше, є гарним. Відповідь «тому, що люди». Люди цікавляться речами через безліч причин, включаючи маркетинг.
luk32

Глибоке навчання працює на практиці. Це може бути перенапруження. Це може бути абсолютно невиправданим. Це може бути вивчення таємниць Всесвіту від божества ельдріха. Але галас надходить від практикуючих, які раптом можуть написати 30 рядків на коді та навчити камеру сканувати підписи та співставляти їх із збереженими для перевірки банківських операцій. Або позначте на фотографіях невідомих людей. І т.д. Можливо, ви чули рядок "це не образа, якщо це правда"? Ну це не галас, якщо це працює. Існує безліч проблем, на які вона не працює, і надмірна популярність. Але це працює в реальному житті.
Stella Biderman

@StellaBiderman простота інструментів навколо стандартних методик машинного навчання - це добре і все. Але інтерес, здається, більше пов'язаний з передбачуваною здатністю до навчання ДНЗ, яка, можливо, конкурує з людською здатністю, яка, здається, переоцінена, враховуючи аналіз моделі ВК. Настільки високий розмір ВК означає, що моделі не будуть узагальнюватись, а замість цього запам'ятовують набори даних, роблячи їх дуже крихкими. Усі приклади змагальних прикладів демонструють цю точку зору.
yters

@gerrit Я не впевнений, що редагування було дуже корисним. Б'юсь об заклад, що більшість людей знають, що таке розмір ВК, ніж знають, що він означає.
Девід Річербі

Відповіді:


75

"Якщо карта та місцевість не погоджуються, довіряйте місцевості."

Не дуже зрозуміло, чому глибоке навчання працює так добре, як це, але, безумовно, старі концепції з теорії навчання, такі як розміри ВК, здаються не дуже корисними.

Питання гаряче обговорюється, див. Наприклад:

Щодо питання змагальних прикладів , проблема була виявлена ​​у:

Він далі розвинений у:

Проводиться велика кількість наступних робіт.


Коментарі не для розширеного обговорення; ця розмова переміщена до чату .
DW

Коли ви говорите "Є багато подальших робіт", ви посилаєтесь на останній документ про 2014 рік? Перші два документи, які ви згадуєте, є досить недавніми. Чи можете ви оновити документи, на які ви посилаєтесь?
VF1

2
Сильний +1 для "Якщо карта та місцевість не погоджуються, довіряйте місцевості". Моделі дуже добре працюють на практиці незалежно від того, якщо математика каже, що слід. З наукової POV, це відбувається постійно, і якщо щось робить проблеми цікавішими. Ніхто не читав роботи Різборова та Рудича про "Природні докази" і "добре, мабуть, P vs NP - це не цікаве питання." Вони пішли і зрозуміли, що можливо використовувати алгебраїчну геометрію для теорії складності. З точки зору науки, проблеми, які виходять за рамки нашого розуміння, є кращими , а не гіршими.
Stella Biderman

65

"Враховуючи нездатність глибокого навчання узагальнити, згідно з розмірним аналізом ВК [...]"

Ні, це не те, що говорить розмірний аналіз ВК. Розмірний аналіз ВК дає деякі достатні умови, при яких гарантується узагальнення. Але зворотне не обов'язково так. Навіть якщо ви не дотримаєтесь цих умов, метод ML все одно може узагальнити.

По-іншому: глибоке навчання працює краще, ніж розмірний аналіз ВК приведе до вас очікування (краще, ніж аналіз ВК "прогнозує"). Це недолік розмірного аналізу ВК, а не недолік глибокого навчання. Це не означає, що глибоке навчання є недоліком. Це, скоріше, означає, що ми не знаємо, чому працює глибоке навчання - а аналіз ВК не може дати корисної інформації.

Високий розмір ВК не означає, що глибоке навчання можна обдурити. Високий розмір ВК взагалі нічого не гарантує, чи можна його обдурити в практичних ситуаціях. Вимір VC забезпечує однонаправлене, в гіршому випадку: якщо ви дотримуєтесь цих умов, то добрі речі трапляться, але якщо ви не дотримуєтесь цих умов, ми не знаємо, що буде (можливо, все-таки хороші речі все одно відбудуться, якщо природа поводиться краще, ніж найгірший можливий випадок; аналіз ВК не обіцяє, що хороші речі не можуть / не відбудуться).

Можливо, розмір VC модельного простору великий (він включає максимально складні шаблони), але природа пояснюється простими візерунками, і алгоритм ML вивчає просту модель, наявну в природі (наприклад, через регуляризацію) - - у цьому випадку розмір ВК був би високим, але модель узагальнила (для конкретного шаблону, який присутній у природі).

Однак це свідчить про те, що глибоке навчання можна обдурити змагальними прикладами. Але будьте уважні до своєї ланцюжки міркувань. Висновки, які ви робите, не випливають із приміщень, з яких ви почали.


6
Високий розмір ВК означає, що його важче узагальнити (в деякому сенсі, принаймні, якщо мати справу з довільними розподілами). помилка узагальнення нижньої межі точності означає , що для числа зразків малі по порівнянні з розміром VC, існує розподіл такого , що по відношенню до неї будь-якого алгоритму випробує велику помилку генералізації (з великою ймовірністю). Ω(dn)
Аріель

5
-1 для "Високий розмір VC взагалі нічого не гарантує." Це неправда: високий розмір VC передбачає нижню межу складності вибірки для навчання PAC. Хороша відповідь має стосуватися розподілу в найгіршому випадку проти "реального життя".
Сашо Ніколов

1
@SashoNikolov, хороший момент - дякую! Відредаговано.
DW

Ця публікація була в огляді низької якості. Зважаючи на зміст, довжину, голоси та якість, це смішно, вказуючи на це тут, але це може знадобитися мета, бо щось справді не так.
Злий

23

Люди в галузі не враховують розмір ВК, хулігани ...

Що стосується більш серйозної уваги, хоча модель PAC - це елегантний спосіб подумати про навчання (принаймні, на мою думку), і є досить складним, щоб породити цікаві поняття та питання (наприклад, розмір ВК та його зв'язок із складністю вибірки) , це дуже мало стосується реальних життєвих ситуацій.

Пам’ятайте, що в моделі PAC вам потрібно обробляти довільні розподіли, це означає, що ваш алгоритм повинен обробляти змагальні розподіли. Намагаючись дізнатись про деякі явища в реальному світі, ніхто не дає вам "змагальних даних", щоб зіпсувати ваші результати, тому вимагати, щоб поняття класу було вивченим PAC, може бути занадто сильним. Іноді ви можете зв'язати похибку узагальнення незалежно від розмірності ВК для конкретного класу розподілів. Це випадок граничних границь, які формулюються незалежно від виміру VC. Вони можуть пообіцяти низьку помилку узагальнення, якщо ви зможете гарантувати високу емпіричну маржу (що, звичайно, не може статися для всіх розподілів, наприклад, взяти дві близькі точки на площині з протилежними тегами та зосередити розподіл на них).

Отже, відкладаючи модель PAC та розмір VC, я думаю, що галас викликаний тим, що вони просто працюють, і успішно справляються із завданнями, які раніше не були можливими (одне з останніх досягнень, яке спадає на думку, - AlphaGo). Я дуже мало знаю про нейронні сітки, тому сподіваюся, що хтось із більшим досвідом зможе поставити під увагу, але, наскільки мені відомо, ще немає хороших гарантій (точно не так, як у моделі PAC). Можливо, за правильних припущень можна формально виправдати успіх нейронних сіток (я припускаю, що існують роботи щодо формального лікування нейронних мереж та "глибокого навчання", тому я сподіваюся, що люди, які мають більше знань з цього питання, можуть зв’язати деякі документи) .


Коментарі не для розширеного обговорення; ця розмова переміщена до чату .
DW

15

Враховуючи нездатність глибокого навчання узагальнити,

Я не знаю, звідки ти це береш. Емпірично узагальнення розглядається як оцінка (наприклад, точність) за невидимими даними.

Відповідь, чому застосовуються CNN, проста: CNN працюють набагато краще, ніж будь-що інше . Дивіться, наприклад, ImageNet 2012:

  • CNN: 15,315% (це був ранній приклад. CNN зараз значно кращі. Приблизно 4% помилки топ-5)
  • Кращий не-CNN: 26,172% Помилка Top-5 ( джерело - мої знання, які не використовують CNN, не отримали нижче 25% помилки топ-5)

Створіть кращий класифікатор, і люди перейдуть до цього.

ОНОВЛЕННЯ: Я присуджую відповідь кожному, хто представив опубліковані докази того, що машинне навчання взагалі легко обдурити, як це свідчення для глибокого навчання.

Це не так. Ви можете створити класифікатор, який надзвичайно простий на простому наборі даних. Обдурити це не вдасться (навіть не важливо, що означає «легкий»), але це також не цікаво.


3
Низька помилка не означає узагальнення. Це необхідна, але недостатня умова.
yters

3
@yters Будь-ласка, визначте узагальнення.
Мартін Тома

5
@yters, цей коментар змушує мене думати, що ви мало читали про машинне навчання. Мартін сказав точність на небачені дані . Ви говорите про точність даних про навчання. Ви в основному вірно розумієте, що таке узагальнення, але, будь ласка, розумійте, що і всі інші тут це розуміють .
Кен Вільямс

1
@yters Я впевнений, що Кен (і багато людей на цьому сайті, в тому числі і я) знає це. Якщо ваш тестовий набір, однак, не представляє ваш набір даних, ви не можете робити жодних заяв про узагальнення. Хоча варто пам’ятати про це, я не бачу, як це допомагає вам у будь-якому випадку щодо цього питання. Ви просто повинні припустити / переконатися, що ваш тестовий набір репрезентує ваші дані під час виробництва. Насправді дуже просто показати, що ви можете зробити будь-який класифікатор довільним поганим, якщо навчальні зразки не представляють розподілу.
Мартін Тома

2
Це очевидно. Ви не можете очікувати, що модель може добре узагальнитись, якщо вона навчається на перевірених даних за неправильними даними. Вам потрібні кращі дані, а не краща модель.
Емре

9

Відповідь одним словом - "регуляризація". Наївна формула розмірності ВК насправді тут не застосовується, оскільки регуляризація вимагає, щоб ваги не були загальними. Лише крихітна (нескінченно мала?) Вага вагових комбінацій має прийнятну втрату після регуляризації. Справжній вимір на багато порядків менший як результат, тому узагальнення може відбуватися з навчальними наборами, які ми маємо. Результати реального життя свідчать про те, що перевиконання зазвичай не відбувається.


2
Я бачив неодноразове твердження, що результати реального життя показують узагальнене глибоке навчання. Які саме результати показують узагальнення? Я бачив лише те, що DL досягає низьких показників помилок у певних наборах даних, що само по собі не означає, що DL узагальнює.
yters

3
він показує хороші результати ("хороший" = кращий, ніж інші методи ML) на даних, на яких він не навчався . я не впевнений, як ще ви хочете практично виміряти узагальнення.
lvilnis

3

Ми звертаємося до статті: Розуміння глибокого навчання вимагає переосмислення узагальнення. в

Переосмислення узагальнення вимагає перегляду старих ідей: підходи статистичної механіки та складна поведінка в навчанні Чарльз Х. Мартін та Майкл У. Махоні

Дивіться: https://arxiv.org/pdf/1710.09553.pdf

В основному, ми стверджуємо, що межі ВК занадто нещільні, оскільки фундаментальний підхід і те, наскільки статистичний ліміт прийнятий, є нереальним.

Кращий підхід полягає в Статистичній Механіці, яка розглядає клас функцій, залежних від даних, приймає термодинамічний межа (не тільки межа великих чисел)

Крім того, ми також вказуємо, як природні розриви в глибокій потребі призводять до фазових переходів у кривій навчання, які, на нашу думку, спостерігаються в роботі Google (вище)

Щодо обмежень, див. Розділ 4.2 нашої роботи

"Зрозуміло, що якщо ми зафіксуємо розмір вибірки m і дозволимо [розмір класу функцій] N → ∞, [або навпаки, виправити N, нехай m → ∞], ми не повинні очікувати нетривіального результату, оскільки [ N] стає більшим, але розмір вибірки є фіксованим. Таким чином, [у статистичній механіці] типово вважає випадок, що m, N → ∞ такий, що α = m / N є фіксованою постійною ".

Тобто, дуже рідко ми просто додамо більше даних (м) до глибокої мережі. Ми завжди збільшуємо розмір мережі (N), оскільки знаємо, що можемо отримати більш детальні функції / інформацію з даних. Натомість ми робимо на практиці те, про що ми говоримо в роботі - взяти обмеження великого розміру з фіксованим відношенням m / N (на відміну від фіксації m і нехай N збільшується).

Ці результати добре відомі в статистичній механіці навчання. Аналіз складніший, але результати призводять до набагато багатшої структури, яка пояснює багато явищ у глибокому навчанні.

Також, зокрема, відомо, що багато меж статистики стають або тривіальними, або не застосовуються до негладких розподілів ймовірностей, або коли змінні приймають дискретні значення. При нейронних мережах нетривіальна поведінка виникає через розриви (у функціях активації), що призводять до фазових переходів (які виникають у термодинамічній межі).

Документ, який ми писали, намагається пояснити важливі ідеї аудиторії інформатики.

Сам Вапник зрозумів, що його теорія насправді не застосовується до нейронних мереж ... ще в 1994 році

"Розширення [вимір VC] на багатошарові мережі стикається з [багатьма] труднощами. Наявні алгоритми навчання не можуть розглядатися як мінімізація емпіричного ризику для всього набору функцій, реалізованих мережею ... [тому, що це ймовірно ... пошук буде обмежений підмножиною [цих] функцій ... Ємність цього набору може бути набагато нижчою, ніж ємність усього набору ... [і] може змінюватися в залежності від кількості спостережень. Для цього може знадобитися теорія, яка враховує поняття непостійної ємності з "активною" підмножиною функцій "
Вапник, Левін і Лекун 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

Незважаючи на те, що лікуватись з теорією ВК, це непросто, але це не є проблемою для статистичних методів. (що буде темою майбутнього документу)


Це звучить цікаво, але я не впевнений, що я слідкую за вашими аргументами. Чи можете ви детальніше зупинитися на першому реченні, тобто про те, наскільки фундаментальний підхід / статистичний межа є нереалістичним, самостійним способом, який не потребує розуміння статистичної механіки? Які припущення мають межі VC і чому вони нереальні? Можливо, ви можете відредагувати свою відповідь, щоб включити цю інформацію?
DW

Я додав посилання на оригінальний твір Вапніка та Лекуна (1994), який обговорює це питання.
Чарльз Мартін

І додав дещо уточнення.
Чарльз Мартін

1

Здається, ніхто не вказував у вищезазначених відповідях, що цитується формула розмірності ВК призначена лише для 1-шарової нейронної мережі. Я гадаю, що розмір ВК насправді зростає в експоненціальній мірі збільшення кількості шарів L. Мої міркування ґрунтуються на розгляді глибоких нейронних мереж, де функція активації замінюється поліноміальною. Тоді ступінь складених многочленів зростає в експоненціальній мірі збільшення шарів.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.