Ось тема дискусії (з липня 2013 р.), Яка вказує на те, що з цим можуть виникнути деякі проблеми, але це можна зробити.
Шалар Гюлчере (з лабораторії Йошуа Бенджо) сказав, що він успішно використовував таку техніку в питаннях знань: Важливість попередньої інформації для оптимізації :
тренуйте перший DAE як завжди, але з випрямлячами у прихованому шарі:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
мінімізуйте перехресну ентропію або втрати MSE, порівнюючи g1 (f1 (пошкоджений (x))) та x. сигмоїд необов'язковий залежно від даних.
тренуйте другий DAE із додаванням шуму перед випрямлячем f1 та використовуйте блоки реконструкції softplus із втратами MSE:
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
мінімізуйте∥f1(x)−g2(f2(rectifier(corrupt(a1(x)))))∥2+λ1∥W∥1+λ2∥W∥2
Xavier Glorot, а також з лабораторії Bengio, сказав він зробив те ж саме для заміни , крім з штрафу «на значення активації» (імовірно ?) В обох доменів адаптації для Широкомасштабна класифікація почуттів: підхід до глибокого навчання (ICML 2011) та в нейромережевих нейронних мережах глибокого випрямлення (AISTATS 2011).∥W∥1L1∥g2(…)∥1