Я читав в інших місцях, що вибір функції активації прихованого шару в NN повинен базуватися на потребі , тобто якщо вам потрібні значення в діапазоні від -1 до 1, використовуйте tanh і використовуйте сигмоїд для діапазону від 0 до 1.
Моє запитання - як можна знати, у чому полягає потреба ? Це засновано на діапазоні вхідного шару, наприклад, використовувати функцію, яка може охоплювати повний діапазон значень вхідного шару, або якимось чином відображає розподіл вхідного шару (функція Гаусса)? Або проблема чи потреба / домен конкретна, і для того, щоб зробити вибір, потрібен досвід / судження? Або просто "використовувати те, що дає найкращу перекреслену мінімальну помилку тренувань?"
1 + (1 / exp(-sum))
. Зробити необхідність дуже складною для розуміння, не намагаючись обидва набір даних. Потрібно , як ви описали його тут прив'язаний до фактичного відношенню будучи дізнався, тобто довічного набір даних буде вчитися швидше або не на всі задані різні активації.