2
Дивна поведінка з оптимізатором Адама, коли занадто довго тренувалися
Я намагаюся навчити один перцептрон (1000 вхідних одиниць, 1 вихід, без прихованих шарів) на 64 випадково генерованих точках даних. Я використовую Pytorch за допомогою оптимізатора Адама: import torch from torch.autograd import Variable torch.manual_seed(545345) N, D_in, D_out = 64, 1000, 1 x = Variable(torch.randn(N, D_in)) y = Variable(torch.randn(N, D_out)) model = …