Питання та альтернативи підходам до глибокого навчання?


17

Протягом останніх 50 років зростання / падіння / зростання популярності нейронних сіток виступало як щось «барометр» для досліджень ШІ.

З питань на цьому сайті зрозуміло, що люди зацікавлені у застосуванні глибокого навчання (DL) до найрізноманітніших складних проблем.

Тому у мене є два питання:

  1. Практикуючі лікарі - які головні перешкоди на шляху застосування DL «поза скринькою» до вашої проблеми?
  2. Дослідники - якими методами ви користуєтесь (або розробили), які можуть допомогти вирішити практичні проблеми? Чи є вони в межах DL чи пропонують альтернативний підхід?

3
Якщо у вас є два запитання, вам слід задати два запитання.
bpachev

1
Вони явно взаємопов'язані.
NietzscheanAI

Відповіді:


5

Підводячи підсумок, у застосованому глибокому навчанні є дві основні проблеми.

  • Перше, що обчислюється, є вичерпним. Звичайні процесори вимагають багато часу для виконання навіть базових обчислень / тренувань за допомогою Deep Learning. Однак рекомендується використовувати графічні процесори, навіть у багатьох ситуаціях їх може бути недостатньо. Типові моделі глибокого навчання не підтримують теоретичний час перебування в поліномах. Однак якщо ми подивимось на порівняно простіші моделі в ML для одних і тих же завдань, занадто часто ми маємо математичні гарантії, що час навчання, необхідний для таких більш простих алгоритмів, є у поліномах. Це, принаймні, для мене, мабуть, найбільша різниця.

    Однак є рішення, як вирішити цю проблему. Одним із головних підходів є оптимізація алгоритмів DL лише для декількох ітерацій (замість того, щоб переглядати глобальні рішення на практиці, просто оптимізувати алгоритм до хорошого локального рішення, тоді як критерій "Добрий" визначається користувачем).

  • Іншим питанням, яке може бути трохи суперечливим для молодих любителів глибокого навчання, є те, що алгоритми глибокого навчання не мають теоретичного розуміння та міркувань. Глибокі нейронні мережі були успішно використані у багатьох ситуаціях, включаючи розпізнавання рукописного тексту, обробку зображень, самостійне керування автомобілями, обробку сигналів, NLP та біомедичний аналіз. У деяких із цих випадків вони навіть перевершили людей. Однак, якщо говорити, вони ні в якому разі не теоретично такі здорові, як більшість статистичних методів.

    Я не буду вникати в деталі, скоріше залишаю це вам. Існують плюси і мінуси кожного алгоритму / методології, і DL не є винятком. Це дуже корисно, як це було доведено у багатьох ситуаціях, і кожен молодий науковець повинен вивчити хоча б основи DL. Однак у випадку відносно простих проблем краще використовувати відомі статистичні методи, оскільки вони мають багато теоретичних результатів / гарантій на їх підтримку. Крім того, з точки зору навчання, завжди краще почати з простих підходів і опанувати їх спочатку.


Під "в многочленах" ви маєте на увазі "в поліноміальний час", правда? Чи є у вас посилання на це?
NietzscheanAI

Так, саме так я і маю на увазі. Звичайно, це можна довести в багатьох ситуаціях ... Почну з найпростішого можливого прикладу, просто тренування мережі з трьома вузлами і двома шарами - це проблема NP-Complete, як показано тут. ( Citeseerx.ist.psu). edu / viewdoc /… ). Пам’ятайте, що цей документ дуже старий, і тепер у нас є більше ідей щодо вдосконалення на практиці з деякою евристикою, але, теоретично, покращених результатів немає.
Sibghat Ullah

Інша приємна стаття з цього ж питання, де також описані деякі хитрощі для покращення часу навчання на практиці. ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

Скажімо, ми хочемо передбачити ціну на щось. Проста лінійна регресія з найменшим квадратним приляганням матиме час полінома, тоді як вирішення тієї ж проблеми з нейронними мережами (навіть найпростішими з них) призведе до повного завдання NP. Це дуже велика різниця. Зрештою, ви повинні ретельно вибрати алгоритм для конкретного завдання. Наприклад, Least Square fit має специфічні припущення, які включають: "Ідеальну функцію, яку алгоритм вивчає, можна вивчити як лінійну комбінацію особливостей". Якщо це припущення є неправдивим, то досягаються і результати.
Sibghat Ullah

Звичайно, просто тому, що проблема (у цьому випадку пошук оптимальної ваги) є NP-повною, сама по собі не означає, що не існує ефективних практичних методів пошуку хороших ваг ...
NietzscheanAI

5

У мене дуже мало досвіду роботи з ML / DL, щоб називати себе практикуючим, але ось моя відповідь на 1-е питання:

По своїй суті DL добре вирішує завдання класифікації. Не кожну практичну проблему можна перефразувати з точки зору класифікації. Домен класифікації повинен бути відомий заздалегідь. Хоча класифікація може бути застосована до будь-якого типу даних, необхідно навчати NN зразками конкретного домену, де вони будуть застосовані. Якщо домен буде переключено в якийсь момент, зберігаючи ту ж модель (структуру NN), йому доведеться перевчити нові зразки. Крім того, навіть найкращі класифікатори мають "прогалини" - змагальні приклади можна легко побудувати з навчального зразка, таким чином, що зміни не помітні для людини, але неправильно класифікуються за навченою моделлю.


2
"Класифікація" може вважатися особливим випадком "регресії", що, ймовірно, тому є кращою характеристикою DL.
NietzscheanAI

3

Питання 2. Я досліджую, чи обчислення гіпервимірних розмірів є альтернативою глибокому навчанню. Hyper-D використовує дуже довгі бітові вектори (10 000 біт) для кодування інформації. Вектори випадкові і як такі вони приблизно ортогональні. Групуючи та усереднюючи колекцію таких векторів, може бути сформований "набір" і пізніше запитуватися, щоб побачити, чи належить до набору невідомий вектор. Набір можна вважати поняттям або узагальнювати зображення тощо. Навчання проходить дуже швидко, як і розпізнавання. Що потрібно зробити, це імітувати домени, в яких глибоке навчання було успішним, і порівняти Hyper-D з ним.


Цікаво. Отже, чим це відрізняється від "Розрідженої пам'яті" Канерви?
NietzscheanAI

Обидва розроблені Пенті Канервою. Подивіться на гіпермірні обчислення, щоб побачити різницю. Тут занадто довго відповідати.
Дуглас Г Данфорт

1

З точки зору математики, однією з головних проблем у глибоких мережах з декількома шарами є зникаючі або нестабільні градієнти . Кожен додатковий прихований шар вчиться значно повільніше, майже нівелюючи перевагу додаткового шару.

Сучасні підходи до глибокого навчання можуть покращити таку поведінку, але в простих, старомодних нейронних мережах це добре відома проблема. Ви можете знайти добре письмовий аналіз тут для більш глибокого вивчення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.