1
Що відбувається, коли я змішу функції активації?
Існує кілька функцій активації, таких як ReLU, сигмоїдний або тантан\tanh. Що відбувається, коли я змішу функції активації? Нещодавно я виявив, що Google розробив функцію активації Swish, яка є (x * sigmoid). Змінивши функцію активації, чи може вона підвищити точність для малої нейронної мережі, наприклад, проблема XOR?