Які основні теореми машинного (глибокого) навчання?


45

Нещодавно Аль-Рахімі виступив із дуже провокаційною розмовою в NIPS 2017, порівнюючи сучасне машинне навчання з алхімією. Одне з його тверджень полягає в тому, що нам потрібно повернутися до теоретичних розробок, мати прості теореми, що підтверджують основоположні результати.

Коли він це сказав, я почав шукати основні теореми для ML, але не зміг знайти хорошого посилання, яке б мало сенс для основних результатів. Тож ось моє запитання: що є основними сучасними математичними теоремами (теорією) в ML / DL і що вони доводять? Я б здогадався, що робота Вапника піде кудись сюди. Як додаткові, які основні теоретичні відкриті проблеми?


3
@Tim Ця теда має своєрідне значення з stats.stackexchange.com/questions/2379/… ("Які великі проблеми в статистиці?").
качан

2
Це трохи широко. Чи могли б ви хоча б вказати підмножину машинного навчання? Якщо ми обмежимось глибоким навчанням або хоча б контрольованим навчанням, можна спробувати відповісти. Але якщо ви наполягаєте на чомусь на кшталт "Математика машинного навчання", відповідь піде на віки для написання.
DeltaIV

3
Зважаючи на приклад аналога @ whuber, я схильний сказати, що це повинно залишатися відкритим як CW, особливо якщо це може бути обмежено певним підмножиною ML, таким як контрольоване навчання , як вимагає DeltaV.
gung - Відновіть Моніку

3
@DeltaIV Зауважте, що "Deep" є у назві.
амеба каже: Відновити Моніку

4
Розуміння цього питання було темою нещодавньої серії лекцій, які проводив Девід Доного: див. Stats385.github.io .
користувач795305

Відповіді:


43

Як я писав у коментарях, це питання мені здається занадто широким, але я спробую відповісти. Для того, щоб встановити деякі межі, я розпочну з невеликої математики, яка лежить в основі більшості ML, а потім сконцентруюся на останніх результатах DL.


Про безперервний компроміс згадується в незліченних книгах, курсах, MOOC, блогах, твітах тощо в ML, тому ми не можемо почати, не згадуючи про це:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

Доказ тут: https://web.stanford.edu/~hastie/ElemStatLearn/


Чи не Гаусс-Марков теорема (так, лінійна регресія буде залишатися важливою частиною машинного навчання, незалежно від того , що: справа з ним) уточнює , що, коли лінійна модель вірна і деякі припущення про термін помилок є дійсними, МНКОМ має мінімум середньоквадратична помилка (що в наведеному вище виразі є лише Bias2 + Variance ) тільки серед незміщене лінійних оцінок лінійної моделі. Таким чином, цілком можуть існувати лінійні оцінки з ухилом (або нелінійні оцінки), які мають кращу середню квадратичну помилку і, таким чином, кращу очікувану помилку прогнозування, ніж OLS. І це прокладає шлях до всього арсеналу регуляризації (регресія хребта, LASSO, зниження ваги тощо), який є робочим конем МЛ. Тут наводиться доказ (і в незліченних кількох книгах): https://www.amazon.com/Linear-Statistic-Models-James-Stapleton/dp/0470231467

Можливо, більш доречним є вибух підходів до регуляризації, як зауважив у коментарях Карлос Сінеллі, і, безумовно, цікавіше дізнатися про це - теорема Джеймса-Штейна . Розглянемо n незалежних, однакових дисперсій, але не однакових середніх гауссових випадкових величин:

Xi|μiN(θi,σ2),i=1,,n

nXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

Ясна річ, якщо , зменшує оцінку MLE до нуля. Джеймс-Stein теорема стверджує , що для , строго домінує , тобто, він має більш низьку MSE . Дивно, але навіть якщо ми зменшимось до будь-якого іншого постійного , все ще домінує . Починаючи з(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXiНезалежні, може здатися дивним, що, намагаючись оцінити зріст трьох непов'язаних осіб, включаючи вибірку з кількості яблук, вироблених в Іспанії, може в середньому покращити нашу оцінку . Ключовим моментом тут є "в середньому": середня квадратична помилка для одночасного оцінювання всіх компонентів параметру вектора менша, але помилка квадрата для одного або декількох компонентів може бути і більшою, і це дійсно часто, коли у вас є "екстремальні" спостереження.

Виявлення того, що MLE, який справді був "оптимальним" оцінником для універсального оціночного випадку, був детронізований для багатоваріантної оцінки, на той час був досить шоковим і спричинив великий інтерес до усадки, більш відомий як регуляризація в мові мови ML. Можна було б відзначити певну схожість із змішаними моделями та поняттям «позичальна сила»: тут дійсно є певний зв’язок, про який йде мова

Єдиний погляд на усадку: яке співвідношення (якщо воно є) між парадоксом Штейна, регресією хребта та випадковими ефектами у змішаних моделях?

Довідка: James, W., Stein, C., Оцінка квадратичної втрати . Праці Четвертого Берклі-симпозіуму з математичної статистики та ймовірності, Том 1: Внески до теорії статистики, 361--379, Університет Каліфорнії Прес, Берклі, Каліфорнія, 1961


Аналіз головних компонентів є ключовою для важливої ​​теми зменшення розмірів, і він заснований на сингулярному декомпозиції значення : для кожної реальної матриці (хоча теорема легко узагальнюється до складних матриць), ми можемо записатиN×pX

X=UDVT

де розміром ортогональний, - діагональна матриця з неотрицательними діагональними елементами, а розміром знову ортогональна. Докази та алгоритми його обчислення див: Голуб, Г. та Ван Лоан, К. (1983), Матричні обчислення , Університетська преса Джона Хопкінса, Балтімор.UN×pDp×pUp×p


Теорема Мерсера є основою для безлічі різних методів МЛ: тонких пластинних сплайнів, опорних векторних машин, оцінки Кріґінга випадкового процесу Гаусса тощо. В основному це одна з двох теорем, що стоять за так званим трюком ядра . Нехай - симетрична безперервна функція або ядро. якщо додатний напівдефініт, то він допускає ортонормальну основу власних функцій, що відповідають негативним власним значенням:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

Про важливість цієї теореми для теорії ML свідчить кількість посилань, які вона отримує у відомих текстах, таких як, наприклад , текст Расмуссена та Вільямса про Гауссові процеси .

Довідка: Дж. Мерсер, Функції позитивного та негативного типу та їх зв’язок з теорією інтегральних рівнянь. Філософські операції Лондонського королівського товариства. Серія A, що містить документи математичного чи фізичного характеру, 209: 415-446, 1909

Існує також більш проста презентація у Конрада Йоргенса, лінійних інтегральних операторів , Pitman, Boston, 1982.


Інша теорема, яка разом із теоремою Мерсера покладає теоретичну основу хитрості ядра, є теоремою репрезентатора . Припустимо, у вас є пробний простір та симетричне позитивне напівфінішне ядро . Крім того, нехай бути RKHS , пов'язані з . Нарешті, нехай - навчальний зразок. Теорема говорить, що серед усіх функцій , які всі допускають нескінченне уявлення з точки зору власних функційXK:X×XRHKKS={xi,yi}i=1nfHKKчерез теорему Мерсера той, що мінімізує регульований ризик, завжди має кінцеве подання в основі, сформованій ядром, оціненим у навчальних точках,n

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(теорема - остання рівність). Список літератури: Wahba, G. 1990, Spline Моделі даних спостережень , SIAM, Філадельфія.


Теорема універсального наближення було вже цитований користувачем Tobias Віндіш і набагато менш актуальні для машинного навчання , ніж до функціонального аналізу, навіть якщо це може здатися не так , на перший погляд. Проблема полягає в тому, що теорема говорить лише про те, що така мережа існує, але:

  • він не дає ніякої кореляції між розміром прихованого шару та деякою мірою складності цільової функції , наприклад, наприклад, Total Variation. Якщо і необхідний для виправленої помилки виростає експоненціально з , то один прихований шар нейронний мережі були б марними.Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • він не говорить , якщо мережа є досліджуваним . Іншими словами, припускаємо, що, задаючи і , ми знаємо, що розмір NN буде наближати до необхідної толерантності в гіперкубі. Тоді, використовуючи навчальні набори розміром та процедуру навчання, наприклад, наприклад, зворотний опор, чи є у нас гарантія того, що збільшуючи ми можемо відновити ?F(x)fϵNfMMF
  • нарешті, і що гірше за всіх, це нічого не говорить про помилку прогнозування нейронних мереж. Те , що ми дійсно зацікавлені в тому , оцінці помилки передбачення, принаймні , усереднене по всіх навчальних наборів розміру . Теорема не допомагає в цьому відношенні.M

Менша больова точка у версії цієї теореми Горника полягає в тому, що вона не відповідає функціям активації ReLU. Однак з того часу Bartlett довів розширену версію, яка охоплює цю прогалину.


Дотепер я здогадуюсь, що всі теореми, які я вважав, були всім відомі. Отож, настав час веселощів :-) Давайте подивимось декілька теорем глибокого навчання :

Припущення:

  • глибока нейронна мережа (для фіксованого , - це функція, яка пов'язує входи нейронної мережі з її виходами) і втрата регуляризації - обидва суми позитиву однорідні функції одного ступеняΦ(X,W)WΦW(X)Θ(W)
  • функція втрат опукла і колись диференційована в , в компактному наборіL(Y,Φ(X,W)XS

Тоді:

  • будь-який локальний мінімум для таким чином, що підмережа має нульову вагу, є глобальним мінімумом ( теорема 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • вище критичного розміру мережі, локальне походження завжди буде зближуватися до глобального мінімуму від будь-якої ініціалізації ( теорема 2 ).

Це дуже цікаво: CNN, виготовлені лише із згорткових шарів, ReLU, max-пулу, повністю з’єднаних ReLU та лінійних шарів, є позитивно однорідними функціями, тоді як якщо ми включимо функції активації сигмоїдів , це вже не відповідає дійсності, що частково може пояснити вищу продуктивність у деяких програмах об'єднання ReLU + max щодо сигмоїдів. Більше того, справедливі теореми лише у тому випадку, якщо також позитивно однорідна в того ж ступеня, що і . Тепер цікавим фактом є те, що регуляризація або , хоча і є позитивно однорідною, не має однакового ступеня (ступіньΘWΦl1l2ΦΦ, у зазначеному раніше простому випадку CNN збільшується з кількістю шарів). Натомість, більш сучасні методи регуляризації, такі як нормалізація партії та SGD, відповідають позитивно однорідній функції регуляризації того ж ступеня, що і , а випадання, не відповідає точно цій рамці, має сильну подібність до неї. Це може пояснити, чому, щоб отримати високу точність із CNN, регуляризація та недостатня, але нам потрібно застосовувати всілякі диявольські хитрощі, такі як випадання та нормалізація партії! Наскільки мені відомо, це найближче до пояснення ефективності нормалізації партії, яка в іншому випадку є дуже малозрозумілою, як правильно зазначив Аль Рахімі у своїй розмові.Φl1l2

Ще одне спостереження, яке деякі люди роблять на основі теореми 1 , полягає в тому, що це може пояснити, чому ReLU працює добре, навіть з проблемою мертвих нейронів . Згідно з цією інтуїцією, той факт, що під час тренінгу деякі нейрони ReLU «гинуть» (переходять до нульової активації і потім ніколи не відновлюються після цього, оскільки для градієнт ReLU дорівнює нулю) є «особливістю, а не помилкою ", тому що якщо ми досягли мінімуму і повна підмережа померла, ми, очевидно, досягли глобального мінімуму (під гіпотезами теореми 1x<0). Можливо, мені чогось не вистачає, але я думаю, що це тлумачення надумано. Перш за все, під час навчання РЛУ можуть «загинути» задовго до того, як ми досягли місцевого мінімуму. По-друге, треба довести, що коли підрозділи ReLU "гинуть", вони завжди роблять це по повній підмережі: єдиний випадок, коли це тривіально вірно, це коли у вас є лише один прихований шар, і, звичайно, кожен окремий нейрон підмережа. Але в цілому я був би дуже обережним, коли бачив «мертві нейрони» як добру справу.

Список літератури:

Б. Хефеле і Р. Відаль, Глобальна оптимальність у навчанні нейронних мереж , на конференції IEEE з питань комп'ютерного зору та розпізнавання образів, 2017.

Б. Гефеле та Р. Видал. Глобальна оптимальність у тензорній факторизації, глибокому навчанні та за її межами , arXiv, abs / 1506.07540, 2015.


Класифікація зображень вимагає навчальних уявлень, які інваріантні (або принаймні надійні, тобто дуже слабо чутливі) до різних перетворень, таких як розташування, поза, точка зору, освітлення, вираз тощо, які зазвичай є природними зображеннями, але не містять інформації для класифікаційного завдання. Те саме для розпізнавання мовлення: зміни висоти, гучності, темпу, акценту. тощо не повинні призводити до зміни класифікації слова. Такі операції, як згортання, максимальне об'єднання, середнє об'єднання тощо, що використовуються в CNN, мають саме цю мету, тому інтуїтивно ми очікуємо, що вони працюватимуть для цих додатків. Але чи є у нас теореми для підтримки цієї інтуїції? Існує теорема вертикальної інваріантності перекладу, що, незважаючи на назву, не має нічого спільного з перекладом у вертикальний бік, але в основному це результат, який говорить про те, що ознаки, вивчені в наступних шарах, стають все більш інваріантними, оскільки кількість шарів зростає. Це протилежне старій теоремі інваріантності горизонтального перекладу, яка, однак, справедлива для розсіювання мереж, але не для CNN. Однак теорема дуже технічна:

  • припустимо, (ваше вхідне зображення) може бути інтегрованим у квадратf
  • припустимо, що ваш фільтр зв’язується з оператором перекладу , який відображає вхідне зображення на перекладену копію себе . Вивчене ядро ​​згортання (фільтр) задовольняє цій гіпотезі.TtfTtf
  • припустимо, що всі фільтри, нелінійності та об'єднання у вашій мережі задовольняють так звану умову слабкої допустимості , яка в основному є якоюсь слабкою умовою регулярності та обмеженості. Ці умови задовольняються вивченим ядром згортання (доки певна операція нормалізації виконується на кожному шарі), ReLU, сигмоїд, танг тощо, нелінійності та середнім об'єднанням, але не шляхом максимального об'єднання. Таким чином, він охоплює деякі (не всі) реальні архітектури CNN у світі.
  • Припустимо, нарешті, що кожен шар має коефіцієнт об'єднання , тобто об'єднання застосовується у кожному шарі і ефективно відкидає інформацію. Умова також була б достатньою для слабшої версії теореми.nSn>1Sn1

Укажіть за допомогою вихід рівня CNN, коли вхід . Потім нарешті:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(потрійні смуги не є помилкою), що в основному означає, що кожен шар вивчає особливості, які стають все більш інваріантними, і в межах нескінченно глибокої мережі ми маємо ідеально інваріантну архітектуру. Оскільки CNN мають обмежену кількість шарів, вони не є ідеально інваріантними для перекладу, що є добре відомим практикам.

Довідка: Т. Вітовський та Х. Болцкий, Математична теорія глибоких згорткових нейронних мереж для видобутку ознак, arXiv: 1512.06293v3 .


Підсумовуючи, численні межі помилки узагальнення глибокої нейронної мережі на основі її виміру Вапніка-Червонкенсіса або складності Радемахера зростають із числом параметрів (деякі навіть експоненціально), це означає, що вони не можуть пояснити, чому DNN працюють так добре на практиці навіть тоді, коли кількість параметрів значно більше, ніж кількість навчальних зразків. Власне, теорія ВК не дуже корисна в глибокому навчанні.

І навпаки, деякі результати минулого року пов'язують помилку узагальнення класифікатора DNN з величиною, яка не залежить від глибини та розміру нейронної мережі, але залежить лише від структури навчального набору та вхідного простору. За деякими досить технічними припущеннями щодо процедури навчання, навчального набору та простору введення, але з дуже невеликими припущеннями щодо DNN (зокрема, CNN повністю охоплені), то з вірогідністю хоча б , у нас є1δ

GE2log2NyNγm+2log(1/δ)m

де:

  • GE - похибка узагальнення, що визначається як різниця між очікуваною втратою (середньою втратою вивченого класифікатора на всіх можливих тестових балах) та емпіричною втратою (лише гарна помилка навчального набору)
  • Ny - кількість класів
  • m - розмір навчального набору
  • Nγ - номер покриття даних, величина, що стосується структури вхідного простору та мінімального розділення між балами різних класів у навчальному наборі. Довідка:

Дж. Соколіч, Р. Гіріес, Г. Сапіро та М. Родрігес. Похибка узагальнення інваріантних класифікаторів . В AISTATS, 2017


2
+1. Чудова відповідь, остання частина дуже інтригуюча. У першій частині теорема Мерсера виглядає так само, як SVD, яку ви представили трохи вище.
Амеба каже, що повернеться до Моніки

1
@amoeba, ти маєш рацію, але 1) не всі читачі настільки математичні, як ти, що вони одразу визнають схожість між SVD, розширенням Karhunen-Loeve та теоремою Мерсера. Також 2) іншу теорему з функціонального аналізу, яка "припускає" трюк ядра, і яку я вирішив не включати, важче пояснити, ніж теорему Мерсера, і я вже розбив свою суботу :-) Можливо, я додам її завтра!
DeltaIV

1
Гаусс Марков, здається, не на місці, ніколи не бачив, щоб хтось турбувався про СВІТУ в громаді ML.
Карлос Сінеллі

2
Я погоджуюся, що як правило, оригінальна (архаїчна) довідка зазвичай має нудні позначення. З цього приводу документ Mercer насправді дивно сучасний в цьому аспекті, і я додав його саме через це. :) (Я спочатку сказав, що це дуже хороша відповідь, це лише коментар після завершення розмови)
usεr11852 повідомляє Відновити Моніку

2
Мені подобається теорема Мерсера тут, не знімайте її. А чому б не мати обох ланок? Просто додайте smth, як See [here] for a modern exposition, або навпаки, "для оригінального паперу".
амеба каже, що повернеться до Моніки

11

Я думаю, що наступна теорема, на яку ви натякаєтесь, вважається досить фундаментальною у статистичному навчанні.

Теорема (Вапник і Червоненкіс, 1971) Нехай - клас гіпотез функцій від області до а функцією втрати буде втрата . Тоді такі еквіваленти:HX{0,1}01

  1. H має властивість рівномірної конвергенції.
  2. H засвоєний PAC
  3. H має кінцевий розмір VC.

Тут доведено в кількісній версії:

В. Н. Вапник та А. Ю. Червоненкіс: Про рівномірне зближення відносних частот подій до їх ймовірностей. Теорія ймовірності та її застосування, 16 (2): 264–280, 1971.

Версія, сформульована вище, разом із приємною експозицією інших результатів теорії навчання, доступна тут :

Шалев-Шварц, Шай та Шай Бен-Девід. Розуміння машинного навчання: від теорії до алгоритмів. Кембриджська університетська преса, 2014 рік.


6

Хитрість ядра - загальна ідея, яка використовується в багатьох місцях і походить з безлічі абстрактних математик про Гільбертові простори. Занадто багато теорії для мене, щоб набрати тут (скопіювати ...) відповідь, але якщо ви проглядаєте це, ви можете отримати гарне уявлення про його суворі основи:

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf


4

Моя улюблена - нерівність Крафта.

Теорема: Для будь-якого способу опису для кінцевого алфавіту довжина слова повинна задовольняти нерівності .CA={1,,m}LC(1),,LC(2)xA2LC(x)1

Ця нерівність пов'язує стиснення з щільністю ймовірності : за даним кодом довжина результату, представлена ​​цим кодом, є негативною ймовірністю журналу моделі, ідентифікованої кодом.

Крім того, ні одна теорема про вільний обід для машинного навчання має менш відомий побратим, ні теорему про гіперспресію, яка стверджує, що не всі послідовності можна стиснути.


4

Я б не називав це головною теоремою, але я вважаю, що наступне (іноді його називають теоремою універсального наближення) є цікавим (і, принаймні, для мене дивним), оскільки воно говорить про приблизну потужність нейронних мереж подачі вперед.

Теорема: Нехай - неконстантна і монотонно зростаюча неперервна функція. Для будь-якої функції безперервності і будь-якого , існує ціле число і багатошаровий перцептрон з одним прихованим шаром, що має нейронів, які мають як активацію функціонувати так, щоσf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
для всіх .x[0,1]m

Звичайно, оскільки це твердження про існування , його вплив для практикуючих людей незначний.

Доказ можна знайти в Hornik, Можливості наближення Muitilayer Feedforward Networks, Neural Networks 4 (2), 1991,


5
Ця теорема є дещо нецікавою, оскільки вона не стосується нейронних мереж. Багато інших класів функцій мають схожі (а іноді і сильніші) властивості наближення. Дивіться, наприклад, теорему Стоун-Вейерштрасса. Більш цікавим результатом буде узгодженість регресії нейронної сітки в загальних рамках. Також повинні бути відомі межі середньої помилки узагальнення з точки зору складності мережі та розміру навчальної вибірки.
Олів’є

1
@Olivier: Я повністю згоден. Але хоча ця теорема не присвячена виключно нейронним мережам, я все ж вважаю її твердженням, її суворим доказом та її наслідками цікавими. Наприклад, там сказано, що поки ви використовуєте функцію активації, яка має властивості, зазначені вище, приблизна здатність мережі однакова (грубо кажучи). Або це говорить про те, що нейронні мережі піддаються надмірному оснащенню, оскільки ви можете багато чого навчитися вже з одного прихованого шару.
Tobias Windisch

1
Це не говорить саме це. Це говорить лише про те, що існує нейронна мережа з одним прихованим шаром, який може представляти , але він нічого не розповідає про те, як росте , наприклад, з , або з деякою мірою складності (наприклад, його сумарне коливання ). Це не говорить вам, чи можете ви ваги вашої мережі за даними. Ви дізнаєтесь, що в багатьох цікавих випадках є експоненціально більшим для мереж одного прихованого шару, ніж для багатошарових (глибоких) мереж. Ось чому ніхто не використовує одні мережі прихованих шарів для ImageNet або для Kaggle. fNmflearnN
DeltaIV

@DeltaIV: В останньому реченні мого попереднього коментаря є помилка друку: слово "вчитися" насправді повинно бути "приблизним" (інакше моя заява про "надмірну підготовку" не мала б сенсу). Дякую за підказку!
Тобіас Віндіш

Так, я трактував це в сенсі "наближення". Моя думка, що навіть якщо ви знаєте, що теоретично ви можете наблизити будь-яку функцію (на обмеженій гіперкубі) одним прихованим шаром NN, на практиці це у багатьох випадках марно. Інший приклад: Гаусові процеси з квадратним експоненціальним ядром мають властивість універсального наближення, але вони не усунули всіх інших методів регресії, також через те, що для деяких проблем кількість вибірок, необхідних для точного наближення, експоненціально зростає.
DeltaIV

2

Приємний пост, присвячений цьому питанню (зокрема, глибоке навчання, а не загальні теореми машинного навчання), тут:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

Він дає доступний підсумок основних теорем, що виникають, про здатність глибоких нейронних мереж так добре узагальнюватись.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.