Максимальна одиниця може вивчити кусково-лінійну, опуклу функцію з до k штук. 1
Отже, коли k дорівнює 2, ви можете реалізувати ReLU, абсолютну ReLU, герметичну ReLU тощо. Якщо k, скажімо, 10, можна навіть приблизно вивчити опуклу функцію.
Коли k дорівнює 2:
нейрон Максута обчислює функцію . І ReLU, і Leaky ReLU є особливим випадком цієї форми (наприклад, для ReLU у нас ). Тому нейрон Maxout користується всіма перевагами блоку ReLU (лінійний режим роботи, без насичення) і не має своїх недоліків (відмирає ReLU).max(wT1x+b1,wT2x+b2)w1,b1=0
Однак, на відміну від нейронів ReLU, він подвоює кількість параметрів для кожного окремого нейрона, що призводить до високої загальної кількості параметрів. 2
Деталі ви можете прочитати тут:
1. DL-книга
2. http://cs231n.github.io/neural-networks-1