Екстремальна машина навчання: про що це все?

Я роздумував над тим, щоб реалізувати та використовувати парадигму «Екстремальний навчальний апарат» (ELM) вже більше року, і чим довше я займаюся, тим більше сумніваюся, що це дійсно гарна річ. Моя думка, однак, здається, що вона суперечить науковій спільноті, коли - коли цитати та нові публікації використовують як міру - це здається гарячою темою.

ELM було введено Huang та ін. ін. Близько 2003 року. Основна ідея досить проста: почніть із двошарової штучної нейронної мережі та випадково призначте коефіцієнти в першому шарі. Це перетворює нелінійну задачу оптимізації, яку зазвичай обробляють за допомогою зворотного розповсюдження, у просту задачу лінійної регресії. Більш детально, для модель є $\mathbf x \in \mathbb R^D$

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

Тепер коригуються лише (щоб мінімізувати втрати в квадраті-помилках), тоді як усі вибрані випадковим чином. Як компенсацію втрати в градусах свободи, звичайною пропозицією є використання досить великої кількості прихованих вузлів (тобто вільних параметрів ). $w_i$ $v_{ik}$ $w_i$

З іншого погляду (не той, який зазвичай рекламується в літературі, який надходить з боку нейронної мережі), вся процедура - це просто лінійна регресія, але така, де ви вибираєте основні функції випадковим чином, наприклад $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(Для випадкових функцій можливі безліч інших варіантів поруч із сигмоїдом. Наприклад, той самий принцип застосовується також за допомогою радіальних базових функцій.)

З цього погляду, весь метод стає майже надто спрощеним, і це теж момент, коли я починаю сумніватися, що метод дійсно хороший (... тоді як його науковий маркетинг, безумовно, є). Отже, ось мої запитання:

Ідея раструвати вхідний простір за допомогою випадкових базових функцій, на мою думку, хороша для низьких розмірів. У високих розмірах, я думаю, що просто неможливо знайти хороший вибір, використовуючи випадковий вибір з розумною кількістю базових функцій. Отже, чи погіршується ЕЛМ у великих розмірах (через прокляття розмірності)?
Чи знаєте ви експериментальні результати, які підтверджують / суперечать цій думці? У зв'язаному документі є лише один набір 27-мірних регресійних даних (PYRIM), де метод виконує аналогічні SVM (тоді як я хотів би побачити порівняння з ANN-кодуванням)
Більш загально, я хотів би подати ваші коментарі щодо методу ELM.

regression

— Давидхіг
джерело

Дивіться тут повну історію: theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

Відповіді:

Ваша інтуїція щодо використання ELM для проблем з великими розмірами правильна, у мене є певні результати щодо цього, які я готую до публікації. Для багатьох практичних проблем дані не дуже нелінійні, і ELM працює досить добре, але завжди знайдуться набори даних, де прокляття розмірності означає, що шанс знайти гарну базову функцію з кривизною саме там, де вам це потрібно, стає швидше невеликий, навіть з багатьма базовими векторами.

Я особисто використовував би щось на зразок векторної машини, що підтримує найменші квадрати (або радіальну функціональну мережу) і спробував би вибирати базові вектори з тих, хто в навчальному наборі, жадібно (див., Наприклад, мій папір , але були й інші / краще підходи, які були опубліковані приблизно в один і той же час, наприклад, в дуже хорошій книзі Шолкопфа і Смоли про "Навчання з ядрами"). Я думаю, що краще обчислити приблизне рішення точної проблеми, а не точне рішення наближеної проблеми, і машини ядра мають кращу теоретичну основу (для фіксованого ядра; o).

— Дікран Марсупіал
джерело

+1. Я ніколи не чув про ELM раніше, але з опису в ОП це виглядає дещо як машина рідкого стану (LSM): випадкове підключення до мережі та оптимізація лише ваги зчитування. Однак у LSM випадковий "резервуар" є рецидивуючим, тоді як у ELM - це подається вперед. Це справді схожість і відмінність?

— амеба каже: Відновіть Моніку

Дякую за хорошу відповідь, будь ласка, оновіть відповідь після публікації вашої роботи. Щодо ядра: звичайно, у вас є також версія «ядра» ELM. Просто замініть сигмоїд вище на якесь (не обов'язково позитивне-певне) ядро

і виберіть безліч

довільно. Ту ж «хитрість», що і в оригінальній ELM, та сама проблема. Ті методи, які ви згадали для вибору центрів, тут також мають безпосереднє значення (навіть якщо цільові функції в ELM та SVM різні) ... це, ймовірно, перетворює його з "абсолютно сліпого" на "напівсляпого" метод.

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

— davidhigh

@amoeba: Я не знав машини рідкого стану, але, як ви кажете, це звучить насправді дуже схоже ... і, звичайно, технічно більш загальне. Тим не менш, рекурсу просто додає більш складну форму випадковості до проблеми, яка, на мій погляд, не справляється з проблемами прокляття розмірності (... але добре, хто це робить?). Вибирають ці ваги рекурсійності з певною ретельністю або також є абсолютно випадковими?

— davidhigh

@davidhigh для ядра RBF, "теореми представника" показують, що немає кращого рішення, ніж централізувати базову функцію на кожному навчальному зразку (роблячи деякі розумні припущення щодо функції регульованої вартості). Це одна з приємних особливостей ядерних методів (і сплайнів), тому немає необхідності поширювати їх випадковим чином. До речі, побудова лінійної моделі на виході випадково вибраних базових функцій має дуже довгу історію, моїм улюбленим є одношаровий пошук perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1, але я може бути упередженим!

— Дікран Марсупіал

@DikranMarsupial ви опублікували чи у вас є щось доступне перед публікацією?

— Том Хейл

ELM "вчиться" з даних, аналітично вирішуючи вихідні ваги. Таким чином, більша кількість даних, що надходять у мережу, дасть кращі результати. Однак це також потребує більшої кількості прихованих вузлів. Якщо ELM навчається з малою або відсутністю помилкою, при введенні нового набору вхідних даних він не може створити правильний вихід.

Основна перевага ELM перед традиційною нейронною сіткою такого поширення спини - це швидкий час тренування. Більша частина часу на обчислення витрачається на вирішення ваги вихідного шару, як згадується в роботі Хуанга.

— користувач62106
джерело