Я вибираю функцію активації для вихідного шару залежно від потрібного мені виводу та властивостей функції активації, які я знаю. Наприклад, я вибираю сигмоїдну функцію, коли маю справу з ймовірностями, ReLU, коли я маю справу з позитивними значеннями, і лінійну функцію, коли я маю справу з загальними значеннями.
У прихованих шарах я використовую герметичний ReLU, щоб уникнути мертвих нейронів замість ReLU та танху замість сигмоподібних. Звичайно, я не використовую лінійну функцію в прихованих одиницях.
Однак вибір для них у прихованому шарі здебільшого пояснюється спробою та помилками.
Чи є якесь правило, яке функція активації, ймовірно, спрацює добре в деяких ситуаціях? Візьміть термін ситуації максимально загальним: це може стосуватися глибини шару, глибини NN, кількості нейронів для цього шару, оптимізатора, який ми обрали, кількості вхідних особливостей цього шару, до застосування цього NN тощо.
У своїй / її відповіді cantordust посилається на інші функції активації, про які я не згадував, як ELU та SELU. Ці відомості більш ніж вітаються. Однак, чим більше функцій активації я виявляю, тим більше я плутаюся у виборі функції, яку потрібно використовувати у прихованих шарах. І я не думаю, що гортання монети - це хороший спосіб вибору функції активації.