Ось угода:
Технічно ви писали справжні пропозиції (обидві моделі можуть наближати будь-яку функцію 'не надто божевільної') за умови достатньої кількості параметрів).
Чому так? Ну, уважно ознайомтеся з теорією універсального наближення або будь-яким іншим формальним доказом того, що нейронна мережа може обчислити будь-який f (x), якщо є НЕЙШНІ нейрони.
Усі ті докази, які я бачив, використовують лише один прихований шар.
Погляньте тут на http://neuralnetworksanddeeplearning.com/chap5.html для інтуїції. Існують роботи, які показують, що в певному сенсі кількість необхідних нейронів зростає експоненціально, якщо ви просто використовуєте один шар.
Отже, хоча теоретично ви маєте рацію, на практиці у вас немає нескінченної кількості пам’яті, тому ви не дуже хочете тренувати 2 ^ 1000 нейронів, чи не так? Навіть якщо у вас був нескінченний об'єм пам'яті, ця мережа напевно буде придатною.
На мій погляд, найважливішим моментом ML є практичний момент! Давайте трохи розширимось на цьому. Справжня велика проблема тут не лише в тому, як поліноми дуже швидко збільшуються / зменшуються поза навчальним набором. Зовсім ні. Як короткий приклад, піксель будь-якого зображення знаходиться в дуже специфічному діапазоні ([0,255] для кожного кольору RGB), тому ви можете бути впевнені, що будь-який новий зразок буде в межах вашої заданої діапазону значень. Ні. Велика справа: Це порівняння не корисно починати з (!).
Я пропоную вам трохи експериментувати з MNIST і спробувати переглянути фактичні результати, які ви можете отримати, використовуючи лише один один шар.
Практичні мережі використовують набагато більше, ніж один прихований шар, іноді десятки (ну, Resnet навіть більше ...) шарів. З причини. Ця причина не доведена, і загалом вибір архітектури нейронної мережі - це гаряча область досліджень. Іншими словами, хоча нам ще потрібно знати більше, обидві моделі, які ви порівняли (лінійна регресія та NN лише з одним прихованим шаром), для багатьох наборів даних взагалі не корисні!
До речі, у випадку, якщо ви потрапите в ML, існує ще одна марна теорема, яка насправді є поточною «областю дослідження» - PAC (можливо, приблизно правильна) / розмір VC. Я розширюю це як бонус:
Якщо універсальне наближення в основному говорить про те, що, враховуючи нескінченну кількість нейронів, ми можемо наблизити будь-яку функцію (велике спасибі?), Те, що PAC каже на практиці, дається (практично!) Нескінченна кількість мічених прикладів, які ми можемо отримати якнайближче хочемо до найкращої гіпотези в нашій моделі. Це було абсолютно весело, коли я обчислював, що фактична кількість прикладів, необхідних для практичної мережі, знаходиться в межах деякої бажаної швидкості помилки з певною вірогідністю вірогідності :) Це було більше, ніж кількість електронів у Всесвіті. PS для його підвищення також передбачає, що зразки є IID (що ніколи не буває правдою!).