Чи є якась проблема з контрольованим навчанням, яка (глибокі) нейронні мережі очевидно не могла б перевершити будь-які інші методи?


33

Я бачив, як люди доклали чимало зусиль для SVM та ядер, і вони виглядають досить цікаво як починаючі в машинному навчанні. Але якщо ми сподіваємось, що майже завжди ми зможемо знайти рішення, що перевершує ефективність, з точки зору (глибокої) Нейронної мережі, у чому сенс спроби інших методів у цю епоху?

Ось моє обмеження щодо цієї теми.

  1. Ми думаємо лише про контрольовані навчання; Регресія та класифікація.
  2. Читання результату не враховується; враховується лише точність щодо проблеми, що контролюється навчанням.
  3. Обчислювальні витрати не враховуються.
  4. Я не кажу, що будь-які інші методи марні.

3
Якісь обмеження щодо кількості наявних даних про навчання?
Джейк Вестфалл

1
Я цього не робив, але, напевно, вам доведеться важко навчити нейронну мережу робити, наприклад, розклад сингулярного значення на матриці нетривіального розміру (скажімо, ранг> 10).
Мехрдад

1
Google Translate зараз використовує нейронні мережі , і тепер створює більше цікавих помилок для назви бразильського міста, де словникове використання словника було б набагато краще
Генрі

Я ніколи не чув про глибоке навчання для використання матричного завершення (хоча використання матричного завершення до глибокого навчання є звичайною практикою). Ви можете стверджувати, що це може бути проблемою з обчислювальною вартістю, але також варто відзначити, що я не знаю, чи могли б усі комп'ютери у світі виконати поглиблення матриці глибокого вивчення, скажімо, з проблемою netflix.
Кліф АВ

@CliffAB: (язик на півдорозі в щоку ...), мабуть, варто відзначити, що вони, можливо, не зможуть, але я не впевнений, що варто відзначити, що ви не знаєте, чи вміють вони;)
Мехрдад,

Відповіді:


31

Ось одна теоретична та дві практичні причини, чому хтось може раціонально віддавати перевагу не-DNN-підходу.

  1. Теорема "Без вільного обіду" від Вулперта та Макквері говорить

    Ми назвали пов'язані результати теоремами NFL, оскільки вони демонструють, що якщо алгоритм справляється з певним класом проблем, то він обов'язково платить за це з погіршенням продуктивності на множині всіх інших проблем.

    Іншими словами, жоден єдиний алгоритм не керує ними всім; ти маєш орієнтир.

    Очевидне спростування тут полягає в тому, що зазвичай вам не байдуже всі можливі проблеми, а глибоке навчання, здається, добре працює над декількома класами проблем, які хвилюють людей (наприклад, розпізнавання об'єктів), і тому це розумний перший / єдиний вибір для інших програм у цих областях.

  2. Багато цих дуже глибоких мереж потребують тонн даних, а також тонн обчислень, щоб відповідати. Якщо у вас є (скажімо, 500) прикладів, двадцятишарова мережа ніколи не навчиться добре, хоча, можливо, вдасться помістити значно простішу модель. Існує дивовижна кількість проблем, коли зібрати тону даних неможливо. З іншого боку, можна спробувати навчитися вирішувати пов'язану проблему (де більше даних), використовуючи щось на зразок передачі навчання, щоб адаптувати її до конкретної задачі з низькою доступністю даних.

  3. Глибокі нейронні мережі також можуть мати незвичні режими відмов. Існує декілька робіт, які показують, що зміни, сприйняті людиною, ледь можуть призвести до того, що мережа відхилиться від правильної класифікації зображення, щоб впевнено неправильно класифікувати його. (Див тут і супроводжуючий документ по Szegedy і ін.) Інші підходи можуть бути більш стійкими проти цього: є отруйні нападу SVMs (наприклад, це по Biggio, Нельсон і Laskov), але ті , відбуваються в поїзді, а не тест час. З іншого боку, існують відомі (але не великі) межі продуктивності алгоритму найближчого сусіда. У деяких ситуаціях ви можете бути щасливішими з низькою загальною продуктивністю та меншими шансами катастрофи.


Я погодився з усім, що ти кажеш. Але проблема полягає в тому, що "обчислювальні питання ігноруються". Це означає, що ОП передбачає, що у вас буде нескінченна кількість зразків і нескінченних ресурсів обчислень.
SmallChess

17
Нескінченне обчислення! = Нескінченні вибірки. Наприклад, у мене є доступ до приголомшливо великого кластера для обробки даних. Однак лабораторні експерименти, які ми робимо, щоб насправді отримати деякі з цих даних, є складними, повільними та трудомісткими (за порядком годин до днів для однієї точки даних), і всі обчислення у світі не допоможуть цьому .
Метт Крауз

2
SVM з будь-яким даним екстрактором функцій, ймовірно, так само вразливі до змагальних входів, як і CNN - знайти їх складніше, оскільки у нас немає легко доступних градієнтів шарів вилучення функцій.
Дугал

1
Нещодавно цікавий приклад проблеми @MattKrause в реальному житті та спроба їх обійти за допомогою трансферного навчання представлена ​​в роботах Sim-to-Real Робота з пікселів з прогресивними мережами
HBeel

@Dougal, мені також цікаво, чи має значення те, що DNN-функції-витяжки вивчені, тоді як SVM (як правило) виготовляються вручну і відповідають характеристикам, які люди помічають. Частина того, що робить приклад панди настільки підступним, - це непомітна різниця між змагальним прикладом від звичайного.
Метт Крауз

24

Десь у цьому списку відтворення лекцій Джеффа Гінтона (з курсу його курсів по нейронних мережах) є сегмент, де він розповідає про два класи проблем:

  1. Проблеми, коли голосна особливість шуму ,
  2. Проблеми, коли сигнал є ключовою особливістю.

Я пам’ятаю пояснення, що хоча нейронні мережі процвітають у цьому останньому просторі, традиційні статистичні методи часто краще підходять до перших. Аналіз цифрових фотографій з високою роздільною здатністю реальних речей у світі, місця, де глибокі звивисті сітки є видатними, є останньою.

З іншого боку, коли шум є домінуючою ознакою, наприклад, у медичному дослідженні контрольного випадку з 50 випадками та 50 контрольними можливостями, традиційні статистичні методи можуть бути краще пристосовані до проблеми.

Якщо хтось знайде це відео, будь ласка, прокоментуйте його, і я оновлю його.


Відмінна відповідь. Саме тому ми переходимо до глибокого вивчення того, що ми вже можемо робити (наприклад, розпізнавати зображення та писати текст), але можемо звернутися до інших моделей речей, які можуть бути інтуїтивно важкими.
Мустафа S Еїза

Я особисто сприймаю цю відповідь як найбільший інтерес. Дуже дякую за відповідь.
Робін

13

Дві лінійно вдосконалені корельовані змінні. Чи може глибока мережа з 1 мільйоном прихованих шарів і 2 трлн нейтронів перемогти просту лінійну регресію?

ВИДАЛЕНО

На мій досвід, вибірка зразків дорожча, ніж обчислення. Я маю на увазі, ми можемо просто найняти кілька прикладів Amazon, пройти навчання з глибокого навчання, а потім повернутися через кілька днів. Вартість в моєму полі - близько 200 доларів США. Вартість мінімальна. Мої колеги за день заробляють більше.

Збір зразків, як правило, вимагає знання домену та спеціалізованого обладнання. Глибоке навчання підходить лише для проблем із дешевим та простим набором даних, таких як обробка природними мовами, обробка зображень та все, що можна викреслити з Інтернету.


1
Звичайно, будь-який метод MLE випереджає глибоке навчання, обумовлене моделлю генерації, що відповідає припущенням MLE . Однак, це не трапляється за реальними даними, або принаймні з будь-яких цікавих проблем (тобто не прогнозування результату перевертання монети). Тому я думаю, що ОП просить приклади, що стосуються реальних питань, що цікавлять реальні дані.
Cliff AB

Це дуже приємна відповідь. Ви запропонували дуже інтуїтивну та реалістичну точку зору. Дуже дякую.
Робін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.