Я читаю наріжний документ « Послідовність до послідовності навчання за допомогою нейронних мереж » Іллі Суцкевера та Квока Ле. На першій сторінці коротко згадується, що:
A surprising example of the power of DNNs is their ability to sort
N N-bit numbers using only 2 hidden layers of quadratic size
Чи може хтось коротко окреслити, як сортувати числа за допомогою лише 2 прихованих шарів?