Ви можете задати ряд питань:
- у вас є відповідна кількість нейронів у кожному шарі
- Ви використовуєте відповідні типи функцій передачі?
- чи використовуєте ви відповідний тип алгоритму навчання
- у вас достатньо великий розмір зразка
- чи можете ви підтвердити, що ваші зразки мають правильні стосунки один з одним, щоб вони були інформативними? (не надмірна, відповідного виміру тощо)
Що ви можете дати на шляху ефемерів? Чи можете ви сказати нам щось про характер даних?
Ви могли б створити градієнтне підсилене дерево нейронних мереж.
Ви запитали, що станеться, якщо зупинитись рано.
Ви можете спробувати себе. Запустіть 300x там, де ви починаєте з випадкових ініціалізованих ваг, а потім зупиніться на заданій кількості ітерацій, скажімо, 100. У цей момент обчисліть помилку ансамблю, помилку підмножини тренінгу та помилку набору тестів. Повторіть. Після того, як у вас з'явиться 300 значень, щоб повідомити, що таке помилка, ви можете отримати уявлення про розподіл помилок за 100 ітерацій навчання. Якщо вам подобається, ви можете випробувати цей розподіл за кількома іншими значеннями навчання. Я пропоную 200, 500 та 1000 ітерацій. Це дасть вам уявлення про те, як змінюється ваш SNR з часом. Сюжет підрахунку SNR vs ітерації може дати вам уявлення про "скелі" або "досить добре". Іноді трапляються скелі, де помилка падає. Іноді помилка є прийнятною в той момент.
Для вашої системи потрібні "відносно прості" дані або "досить хороша" удача, щоб послідовно збільшитись за 100 ітерацій. І те, і інше - ні про повторюваність, ні про їх узагальнення.
Чому ви думаєте з точки зору сходження ваг, а не помилки бути нижче певного порогу. Ви коли-небудь чули про парадокс голосування? ( посилання ) Коли у вас є циклічна взаємодія у вашій системі (наприклад, зворотній зв'язок у нейронних мережах), ви можете мати парадокси голосування, пов'язані із змінами. Я не знаю, чи є лише ваги достатнім показником для конвергенції мережі.
Ви можете думати про гирі як про простір. Він має більше 3 розмірів, але все одно це простір. У "центроїді" цього простору - ваш "найкраще підходить" регіон. Далеко від центроїда - це менш придатна форма. Ви можете вважати поточну установку ваг як єдину точку в цьому просторі.
Тепер ви не знаєте, де насправді "добре". У вас є місцевий "схил". Ви можете виконати спуск градієнта до місцевого "кращого", враховуючи те, де зараз знаходиться ваша точка. Це не говорить вам про "універсальне" краще, але локальне краще, ніж нічого.
Отже, ви починаєте ітерацію, йдучи вниз по схилу до долини кращості. Ви повторюєте, поки не думаєте, що закінчите. Можливо, вартість ваг велика. Можливо, вони підстрибують всюди. Можливо, обчислення "забирає занадто довго". Ви хочете, щоб це було зроблено.
Тож як ти дізнаєшся, чи є ти там, де ти "досить хороший"?
Ось короткий тест, який ви могли зробити:
Візьміть 30 рівномірних випадкових підмножин даних (наприклад, кілька відсотків даних кожна) та перепідготовте мережу до них. Це повинно бути набагато швидше. Поспостерігайте, скільки часу знадобиться їм для зближення та порівняйте його з історією конвергенції великого набору. Перевірте помилку мережі на всю інформацію про ці підмножини і подивіться, як розподіл помилок порівнюється з вашою великою помилкою. Тепер збийте розміри підмножини до, можливо, 5% ваших даних і повторіть. Подивіться, чого це вас вчить.
Це варіація оптимізації рою частинок (див. Довідку), яка моделюється тим, як медоносні бджоли приймають рішення на основі розвідки.
Ви запитали, що станеться, якщо ваги не збігаються.
Нейронні мережі є одним із інструментів. Вони не єдиний інструмент. Є й інші. Я хотів би поглянути на використання одного з них.
Я працюю з точки зору інформаційних критеріїв, тому дивлюся як на ваги (кількість параметрів), так і на помилку. Ви можете спробувати один із них.
Існують деякі типи попередньої обробки, які можуть бути корисними. Центр і масштаб. Обертати за допомогою основних компонентів. Якщо ви дивитесь на власні значення основних ваших компонентів, ви можете використовувати правила графіки екрану для оцінки розміру ваших даних. Зменшення розмірності може поліпшити конвергенцію. Якщо ви знаєте щось про "основну фізику", ви можете згладити або відфільтрувати дані, щоб видалити шум. Іноді конвергенція стосується шуму в системі.
Думаю, що ідея стисненого зондування є цікавою. Це може дозволити радикальне підпробовування деяких систем без втрати узагальнення. Я хотів би переглянути деякі повторні вибірки статистичних даних і розповсюдження ваших даних для завантаження, щоб визначити, чи є і на якому рівні підвідбірки навчальний набір стає репрезентативним. Це дає певний показник "здоров'я" ваших даних.
Іноді добре, що вони не сходяться
Ви коли-небудь чули про парадокс голосування? Ви можете подумати про це як про двоюрідного двоюрідного брата в двосторонній глухий кут. Це петля. У парадоксальному голосуванні з двома особами перша особа хоче кандидата "А", тоді як друга бажає кандидата "В" (або ні-А чи такого). Важлива частина полягає в тому, що ви можете вважати це петлею.
Петлі важливі в нейронних мережах. Відгуки. Рекурсія. Це зробило перцептрон здатним вирішити подібні до XOR проблеми. Це робить петлі, а іноді петлі можуть діяти як парадокс голосування, коли вони будуть змінювати ваги, якщо у вас були нескінченні ітерації. Вони не призначені для зближення, тому що важлива не індивідуальна вага, а взаємодія ваг у циклі.
Примітка:
Використання лише 500 ітерацій може бути проблемою. У мене були NN, де 10000 повторень ледве вистачало. Кількість ітерацій, які мають бути "достатніми", залежить, як я вже зазначив, від даних, NN-топології, функцій передачі вузлів, функції навчання / навчання і навіть апаратного забезпечення комп'ютера. Ви повинні добре розуміти, як вони взаємодіють з вашим рахунком ітерації, перш ніж сказати, що ітерацій було "достатньо" або "занадто багато". Інші міркування, такі як час, бюджет та те, що ви хочете робити з NN, коли ви закінчите навчання, також слід врахувати.
Chen, RB, Chang, SP, Wang, W., & Wong, WK, (2011, вересень). Оптимальні експериментальні проекти за допомогою методів оптимізації рою частинок (додрук), отримано 25 березня 2012 року з веб-сайту http://www.math.ntu.edu.tw/~mathlib/preprint/2011-03.pdf