Скажімо, ми хочемо зробити регресію для простого f = x * y
використання стандартної глибокої нейронної мережі.
Я пам’ятаю, що є повторні дослідження, які говорять про те, що NN з одним прихованим шаром може апоксимувати будь-яку функцію, але я спробував і без нормалізації NN не зміг наблизити навіть це просте множення. Тільки журнал-нормалізація даних допоміг. m = x*y => ln(m) = ln(x) + ln(y).
Але це схоже на обман. Чи може це зробити NN без нормалізації журналу? Незрозумілий, очевидно, (як на мене) - так, тож питання полягає в тому, яким має бути тип / конфігурація / компонування таких NN?