Я роздумував над тим, щоб реалізувати та використовувати парадигму «Екстремальний навчальний апарат» (ELM) вже більше року, і чим довше я займаюся, тим більше сумніваюся, що це дійсно гарна річ. Моя думка, однак, здається, що вона суперечить науковій спільноті, коли - коли цитати та нові публікації використовують як міру - це здається гарячою темою.
ELM було введено Huang та ін. ін. Близько 2003 року. Основна ідея досить проста: почніть із двошарової штучної нейронної мережі та випадково призначте коефіцієнти в першому шарі. Це перетворює нелінійну задачу оптимізації, яку зазвичай обробляють за допомогою зворотного розповсюдження, у просту задачу лінійної регресії. Більш детально, для модель є
Тепер коригуються лише (щоб мінімізувати втрати в квадраті-помилках), тоді як v i k усі вибрані випадковим чином. Як компенсацію втрати в градусах свободи, звичайною пропозицією є використання досить великої кількості прихованих вузлів (тобто вільних параметрів w i ).
З іншого погляду (не той, який зазвичай рекламується в літературі, який надходить з боку нейронної мережі), вся процедура - це просто лінійна регресія, але така, де ви вибираєте основні функції випадковим чином, наприклад
(Для випадкових функцій можливі безліч інших варіантів поруч із сигмоїдом. Наприклад, той самий принцип застосовується також за допомогою радіальних базових функцій.)
З цього погляду, весь метод стає майже надто спрощеним, і це теж момент, коли я починаю сумніватися, що метод дійсно хороший (... тоді як його науковий маркетинг, безумовно, є). Отже, ось мої запитання:
Ідея раструвати вхідний простір за допомогою випадкових базових функцій, на мою думку, хороша для низьких розмірів. У високих розмірах, я думаю, що просто неможливо знайти хороший вибір, використовуючи випадковий вибір з розумною кількістю базових функцій. Отже, чи погіршується ЕЛМ у великих розмірах (через прокляття розмірності)?
Чи знаєте ви експериментальні результати, які підтверджують / суперечать цій думці? У зв'язаному документі є лише один набір 27-мірних регресійних даних (PYRIM), де метод виконує аналогічні SVM (тоді як я хотів би побачити порівняння з ANN-кодуванням)
Більш загально, я хотів би подати ваші коментарі щодо методу ELM.