Підвищення нейронних мереж

21

Нещодавно я працював над вивченням алгоритмів прискорення, таких як adaboost, gradient boost, і я знав той факт, що найпоширенішими слабовживаними є дерева. Мені дуже хочеться знати, чи є кілька останніх успішних прикладів (я маю на увазі деякі статті чи статті) для використання нейронних мереж як базового учня.

— користувач4380802
джерело

Це може бути цікавим для вас читанням: arxiv.org/pdf/1706.04964.pdf

— Даніель,

8

Підсилюючи, слабкі або нестабільні класифікатори використовуються як базові студенти. Це так, тому що метою є створення меж рішення, які значно відрізняються. Тоді, хорошим базовим учнем є той, який є дуже упередженим, іншими словами, результат залишається в основному тим самим, навіть коли параметри навчання базових учнів незначно змінюються.

У нейронних мережах випадання - це методика регуляризації, яку можна порівняти з навчальними ансамблями. Різниця полягає в тому, що збірка проводиться в латентному просторі (нейрони існують чи ні), зменшуючи таким чином помилку генералізації.

"Таким чином, кожен приклад навчання може розглядатися як надання градієнтів для іншої, випадково вибіркової архітектури, так що кінцева нейронна мережа ефективно представляє величезний ансамбль нейронних мереж з хорошою здатністю до узагальнення", - цитуючи звідси .

Існує дві такі методики: при випаді нейрони випадають (маючи на увазі, що нейрони існують чи не є з певною вірогідністю), а при падінні з'єднання ваги скидаються.

Тепер, щоб відповісти на ваше запитання, я вважаю, що нейронні мережі (або перцептрони) не використовуються в якості базових учнів у прискореному налаштуванні, оскільки вони повільніше тренуються (просто займає занадто багато часу) і учні не такі слабкі, хоча вони могли б налаштування бути більш нестабільним. Отже, не варто докладати зусиль.

На цю тему могли бути проведені дослідження, проте шкода, що ідеї, які не працюють добре, зазвичай не публікуються успішно. Нам потрібно ще дослідження, що охоплюють шляхи, які нікуди не ведуть, він же "не турбуйся пробувати це".

Редагувати:

У мене було трохи більше, але з цього приводу, і якщо вас цікавлять ансамблі великих мереж, то, можливо, ви посилаєтесь на способи поєднання результатів декількох таких мереж. Більшість людей в середньому або використовують голосування більшості залежно від завдання - це може бути не оптимально. Я вважаю, що повинно бути можливим змінити ваги для виходу кожної мережі відповідно до помилки на конкретному записі. Чим менше співвіднесених результатів, тим краще ваше правило складання.

— shuriken x blue
джерело

2

Я бачу, що це не має прийнятої відповіді, тому я дам дуже евристичну відповідь. Так, це робиться .... наприклад, він доступний в JMP Pro (мабуть, найкращий пакет статистики, про який ви ніколи не чули). http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

У середині сторінки опис того, для чого він використовується. Я не вкладав жодних циклів у дослідження теорії, але, схоже, вони мають на увазі, що це досягає по суті тих же результатів, що і використання більшої кількості вузлів в одній більшій моделі. Перевага [вони стверджують] полягає в швидкості встановлення моделі.

Щодо дуже грубої міри, я порівняв її за набором даних, у якому я маю 2 сигмоподібні та 2 гауссові вузли, і збільшив модель 6x проти 12 сигмоподібних та 12 гауссових вузлів в одній моделі, і результати були практично однаковими на моєму тестовому наборі даних .

Я також не помітив різниці в швидкості ... але набір даних становить лише 1600 балів, і я використовую лише 12 змінних, тому для більшого набору даних із більшою кількістю змінних може бути правдою, що є помітна різниця в обчисленні.

— JPJ
джерело