Я створив штучну нейронну мережу в python, використовуючи функцію оптимізації scipy.optimize.minimize (Conjugate gradient).
Я здійснив перевірку градієнта, двічі перевірив все тощо, і я впевнений, що він працює правильно.
Я запускав його кілька разів, і він досягає "Оптимізація успішно припиняється", але коли я збільшую кількість прихованих шарів, вартість гіпотези збільшується (все інше зберігається однаково) після її успішного припинення.
Інтуїтивно виглядає так, ніби вартість повинна зменшуватися при збільшенні кількості прихованих шарів, оскільки вона здатна генерувати більш складну гіпотезу, яка може краще відповідати даним, однак, здається, це не так.
Мені буде цікаво зрозуміти, що тут відбувається, чи я неправильно реалізував нейронну мережу?