Пакетна нормалізація та ReLU - це рішення для зниклої градієнтної проблеми. Якщо ми використовуємо пакетну нормалізацію, чи повинні ми використовувати сигмоїди? Або є функції ReLU, які роблять їх корисними навіть при використанні batchnorm?
Я припускаю, що нормалізація, проведена в batchnorm, посилатиме нульову активацію негативною. Чи означає це, що batchnorm вирішує проблему "мертвої ReLU"?
Але безперервний характер танху та логістики залишаються привабливими. Якщо я використовую batchnorm, чи буде тань працювати краще, ніж ReLU?
Я впевнений, що відповідь залежить . Отже, що працювало у вашому досвіді та які важливі особливості вашої заявки?