Чи означає нормалізація партії, що сигмоїди працюють краще, ніж ReLU?

9

Пакетна нормалізація та ReLU - це рішення для зниклої градієнтної проблеми. Якщо ми використовуємо пакетну нормалізацію, чи повинні ми використовувати сигмоїди? Або є функції ReLU, які роблять їх корисними навіть при використанні batchnorm?

Я припускаю, що нормалізація, проведена в batchnorm, посилатиме нульову активацію негативною. Чи означає це, що batchnorm вирішує проблему "мертвої ReLU"?

Але безперервний характер танху та логістики залишаються привабливими. Якщо я використовую batchnorm, чи буде тань працювати краще, ніж ReLU?

Я впевнений, що відповідь залежить . Отже, що працювало у вашому досвіді та які важливі особливості вашої заявки?

deep-learning batch-normalization

— generic_user
джерело

Навіть якщо документ пропонує використовувати BatchNorm до активації, на практиці було встановлено, що кращі рішення дають результат, якщо BN застосовується після. Якщо я не забуваю про щось, що повинно означати, що в останньому випадку BN не впливає на активацію. Але звичайно, це відкрите питання, якби BN працював би краще, коли застосовувався до і з іншою активацією, ніж ReLU. На мою думку, ні. Тому що ReLU все ще має інші переваги, такі як більш просте виведення. Але мені також цікаво. Можливо, хтось зробив досвід у цій галузі.

— oezguensi

1

Дивіться, основна концепція, що лежить в основі пакетної нормалізації, полягає в тому, що (уривок із статті "Середній")

Ми нормалізуємо свій вхідний шар, регулюючи та масштабуючи активації. Наприклад, коли у нас є функції від 0 до 1, а деякі - від 1 до 1000, ми повинні їх нормалізувати, щоб прискорити навчання. Якщо вхідний шар виграє від нього, чому б не зробити те ж саме і для значень у прихованих шарах, які постійно змінюються, і отримати 10-кратне і більше вдосконалення швидкості тренувань.

Прочитайте статтю тут.

Це причина, чому ми використовуємо Batch-нормалізацію. Тепер, підходячи до вашого питання, подивіться, як вихід сигмоїда обмежує між 0 і 1, і що є девізом Batch-нормалізації. Якщо ми використовуємо Бахову нормалізацію з сигмоїдної активацією, то вона буде обмежена від сигмоїдної (0) до сигмоїдної (1), тобто від 0,5 до 0,73 ~ . Але якщо ми будемо використовувати ReLU з Batch-нормалізацією, то вихід буде поширюватися на 0 до 1, що є хорошою для нас, нарешті, ми хочемо, щоб результат був максимально різноманітним. Тому я думаю, що ReLU стане найкращим вибором серед інших активацій. $frac{1}/{(1+1/e)}$

— Божевільний
джерело

0

madman відповів правильно на ваше запитання щодо нормалізації партії, і дозвольте мені відповісти на вашу другу частину того, як неперервні функції можуть здаватися привабливими, але relu кращий за всі вони, і це твердження не з мого боку MR. Хінтон процитував це: "ми були тупими людьми, які використовували сигмоїд як функцію активації, і це пішло 30 років, щоб ця реалізація пройшла, що, не розуміючи її форми, її ніколи не пустять ваш нейрон в навчальний стан, його завжди насичує, так це його похідне і він назвав себе та всіх інших ошелешених людей ". Отже, вибирайте функцію активації лише тому, що вона безперервна і не дивиться на те, як це вплине на ваш нейрон"

Примітка: Якщо ви вивчаєте нейронні мережі, я б радив вам вважати нейронні мережі великими і глибокими складовими функціями, щоб зрозуміти, що працює і чому це працює, вам потрібно зрозуміти, як нейронна мережа створює різноманітність даних у деякому вищому вимірі ", що представляє "ті дані, в яких добротність колектора залежить від вашого вибору функцій і від того, як функція перетворює інші функції, що виводяться, коли вони даються їй як вхідні дані.

— khwaja wisal
джерело