Штучні нейронні мережі РІВНІ до лінійної регресії з поліноміальними ознаками?

11

Я хочу покращити своє розуміння нейронних мереж та їх переваг порівняно з іншими алгоритмами машинного навчання. Я розумію, як нижче, і моє питання:

Чи можете ви виправити та доповнити моє розуміння, будь ласка? :)

Моє розуміння:

(1) Штучні нейронні мережі = Функція, яка прогнозує вихідні значення із вхідних значень. Відповідно до теореми універсального наближення ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ), ви, як правило, можете мати будь-яку можливу функцію прогнозування (хоча вона повинна добре поводитись) з урахуванням достатньої кількості нейронів.

(2) Те ж саме стосується лінійної регресії, приймаючи поліноми вхідних значень як додаткові вхідні значення, оскільки ви можете наблизити (порівняти розширення Тейлора) кожної функції за допомогою поліномів.

(3) Це означає, що (у певному сенсі, щодо найкращих можливих результатів) ці 2 методи є рівнозначними.

(4) Отже, їх основна відмінність полягає в тому, який метод піддається кращому обчислювальному впровадженню. Іншими словами, за допомогою якого методу ви можете знайти, спираючись на приклади тренувань, швидші хороші значення параметрів, які в кінцевому підсумку визначають функцію прогнозування.

Я вітаю будь-які думки, коментарі та рекомендації до інших посилань чи книг, щоб покращити своє мислення.

regression machine-learning

— тирекс
джерело

2

Повинен бути переміщений в math.stackexchange.com Нейронні мережі з

активації приблизною довільній добре будь-яку гладку функцію , але у них є ще одна особливість: гладкість (масштабування ваг) залежить від точки, це ключ до гарної глобальної апроксимації . Цього ви не можете досягти за допомогою поліноміального наближення (даючи безперервну функцію, візьміть його згортання з

і використовуйте перші кілька доданків розширення Тейлора навколо деякої точки, що дає лише гарне локальне наближення )

\tanh

$\tanh$

n^{d} e^{- π | n x |^{2}}

$n^d e^{-\pi |n x|^2}$

— користувач1952009

@ user1952009 - чи не передбачає Стоун-Вайерштрасс довільно хорошого глобального наближення через рівномірність наближення в теоремі?

— jbowman

f

$f$

r

$r$

ϵ

$\epsilon$

f_{r, ϵ}

$f_{r,\epsilon}$

sup_{| x | \leq r} | f (x) - f_{r, ϵ} (x) | \leq ϵ

$\sup_{|x| \le r} |f(x)-f_{r,\epsilon}(x)| \le \epsilon$

x_{0}

$x_0$

1

Це потенційно дублікат stats.stackexchange.com/questions/41289/… Я б позначив це питання, але, маючи багатство, напевно, я просто збираюся тут прокоментувати :)

— Х'ю Перкінс

1

+1 @HughPerkins за посилання на проникливий пов'язаний Q. Але, хоч відповіді у відповідному питанні містять розуміння цього питання (наприклад, як пояснює Стефан Коласа, ANN враховує нелінійність як замовчування, тоді як регресія робить це лише якщо спеціально моделюється за допомогою додаткових прийомів) Я б не позначав дублікат . Ви запитували, який тип моделі може дати кращі результати, тоді як у цьому питанні конкретно пропонується пояснити, чи схожі два методи за своїми результатами та узагальненістю.

— IWS

7

Ось угода:

Технічно ви писали справжні пропозиції (обидві моделі можуть наближати будь-яку функцію 'не надто божевільної') за умови достатньої кількості параметрів).

Чому так? Ну, уважно ознайомтеся з теорією універсального наближення або будь-яким іншим формальним доказом того, що нейронна мережа може обчислити будь-який f (x), якщо є НЕЙШНІ нейрони.

Усі ті докази, які я бачив, використовують лише один прихований шар.

Погляньте тут на http://neuralnetworksanddeeplearning.com/chap5.html для інтуїції. Існують роботи, які показують, що в певному сенсі кількість необхідних нейронів зростає експоненціально, якщо ви просто використовуєте один шар.

Отже, хоча теоретично ви маєте рацію, на практиці у вас немає нескінченної кількості пам’яті, тому ви не дуже хочете тренувати 2 ^ 1000 нейронів, чи не так? Навіть якщо у вас був нескінченний об'єм пам'яті, ця мережа напевно буде придатною.

На мій погляд, найважливішим моментом ML є практичний момент! Давайте трохи розширимось на цьому. Справжня велика проблема тут не лише в тому, як поліноми дуже швидко збільшуються / зменшуються поза навчальним набором. Зовсім ні. Як короткий приклад, піксель будь-якого зображення знаходиться в дуже специфічному діапазоні ([0,255] для кожного кольору RGB), тому ви можете бути впевнені, що будь-який новий зразок буде в межах вашої заданої діапазону значень. Ні. Велика справа: Це порівняння не корисно починати з (!).

Я пропоную вам трохи експериментувати з MNIST і спробувати переглянути фактичні результати, які ви можете отримати, використовуючи лише один один шар.

Практичні мережі використовують набагато більше, ніж один прихований шар, іноді десятки (ну, Resnet навіть більше ...) шарів. З причини. Ця причина не доведена, і загалом вибір архітектури нейронної мережі - це гаряча область досліджень. Іншими словами, хоча нам ще потрібно знати більше, обидві моделі, які ви порівняли (лінійна регресія та NN лише з одним прихованим шаром), для багатьох наборів даних взагалі не корисні!

До речі, у випадку, якщо ви потрапите в ML, існує ще одна марна теорема, яка насправді є поточною «областю дослідження» - PAC (можливо, приблизно правильна) / розмір VC. Я розширюю це як бонус:

Якщо універсальне наближення в основному говорить про те, що, враховуючи нескінченну кількість нейронів, ми можемо наблизити будь-яку функцію (велике спасибі?), Те, що PAC каже на практиці, дається (практично!) Нескінченна кількість мічених прикладів, які ми можемо отримати якнайближче хочемо до найкращої гіпотези в нашій моделі. Це було абсолютно весело, коли я обчислював, що фактична кількість прикладів, необхідних для практичної мережі, знаходиться в межах деякої бажаної швидкості помилки з певною вірогідністю вірогідності :) Це було більше, ніж кількість електронів у Всесвіті. PS для його підвищення також передбачає, що зразки є IID (що ніколи не буває правдою!).

— Йоні Керен
джерело

Отже, чи штучні нейронні мережі рівнозначні лінійній регресії з поліноміальними ознаками чи ні? Здається, ваша відповідь зосереджена на кількості шарів та необхідних нейронів, але не пояснює, чому ці два аналізи повинні / можуть бути рівнозначними. Чи додавання більше (прихованих) шарів робить нейронну мережу здатною обробляти (навіть) більше функцій, ніж регресія з поліномами? І, як ОП запитався у відповіді, як щодо зовнішньої дійсності / вибіркових показників цих моделей (і компромісів між використанням більш хитромудрих варіантів моделі та продуктивності)?

— IWS

Я посилаюсь на моє найперше речення: "Технічно ви написали справжні пропозиції".

— Йоні Керен

Ну, я запитав, тому що міркування вашої заяви про те, що "ОП написала справжні пропозиції", було мені не зрозумілим на основі вашої відповіді. Ви б були так люб'язно деталізувати це?

— IWS

Точно. Це краще, чи ви вважаєте щось ще незрозумілим?

— Йоні Керен

8

Це правда, що будь-яку функцію можна наблизити довільно близькою як тим, що вважається нейронною мережею, так і тим, що вважається поліномом.

Перш за все, майте на увазі, що це стосується багатьох конструкцій. Ви можете наблизити будь-яку функцію, комбінуючи синуси та косинуси (перетворення Фур'є), або просто додавши багато "прямокутників" (не дуже точне визначення, але я сподіваюся, що ви отримаєте бал).

По-друге, так само, як відповідь Йоні, щоразу, коли ви тренуєтесь в мережі або підходите до регресії з великою кількістю повноважень, кількість нейронів або кількість потужностей визначаються. Тоді ви застосуєте якийсь алгоритм, можливо спуск градієнта чи щось таке, і знайдете для цього найкращі параметри. Параметри - ваги в мережі та коефіцієнти для великого многочлена. Максимальна потужність, яку ви приймаєте в поліномі, або кількість використаних нейронів, називаються гіперпараметрами. На практиці ви спробуєте пару таких. Ви можете зробити випадок, що параметр - це параметр, звичайно, але це не так, як це робиться на практиці.

Справа, однак, при машинному навчанні ви не дуже хочете, щоб функція, яка ідеально вписується у ваші дані. Це було б не надто важко досягти насправді. Вам потрібно щось, що добре підходить, але, ймовірно, працює для балів, яких ви ще не бачили. Дивіться це зображення, наприклад, взято з документації на scikit-learn.

Рядок занадто простий, але найкраще наближення не праворуч, воно знаходиться посередині, хоча функція праворуч підходить найкраще. Функція праворуч зробила б досить дивні (і, мабуть, неоптимальні) передбачення для нових точок даних, особливо якщо вони опиняються біля бітових бітів зліва.

Кінцевою причиною роботи нейронних мереж з парою параметрів є настільки добре, що вони можуть щось вмістити, але насправді не переповнюють це. Це також має багато спільного з тим, як вони навчаються, з деякою формою стохастичного градієнтного спуску.

— Гійс
джерело

2

Оскільки відповіді ще не надано (хоча я б прийняв коментар користувача1952009, чи був він опублікований як відповідь), дозвольте мені поділитися тим, про що я дізнався тим часом:

(1) Мені здається, що моє розуміння, як правило, правильно, але чорт у деталях.

(2) Одне, що пропустили в "моєму розумінні": Наскільки добре параметризована гіпотеза узагальниться до даних поза навчальним набором? Неполіномічний характер прогнозів нейронної мережі може бути кращим, ніж прості лінійні / поліноміальні регресії (пам’ятайте, як поліноми збільшуються / зменшуються дуже швидко поза навчальним набором).

(3) Посилання, яке додатково пояснює важливість швидкого обчислення параметрів: http://www.heatonresearch.com/2017/06/01/01/hidden-layers.html

— тирекс
джерело

2

Можливо, цей документ може вам допомогти:

Поліноміальна регресія як альтернатива нейронним мережам

У рефераті сказано:

Незважаючи на успіх нейронних мереж (NN), все ще існує стурбованість серед багатьох щодо їх "чорної скриньки". Чому вони працюють? Тут ми представляємо простий аналітичний аргумент, що NN насправді є моделями поліноміальної регресії. Цей погляд матиме різні наслідки для NN, наприклад, пояснення того, чому виникають проблеми конвергенції в NN, і дає грубі вказівки щодо уникнення перевитрати. Крім того, ми використовуємо це явище для прогнозування та підтвердження властивості мультиколінеарності NN, про яку раніше не повідомлялося в літературі. Найголовніше, враховуючи це вільне листування, можна вибрати рутинне використання поліноміальних моделей замість NN, таким чином уникаючи деяких основних проблем останніх, таких як встановлення багатьох параметрів настройки та вирішення питань конвергенції. Ми представляємо ряд емпіричних результатів; у кожному випадку точність поліноміального підходу відповідає або перевищує точку NN-підходів. Доступний багатофункціональний програмний пакет з відкритим кодом, полірег.

— луказав
джерело