Запитання з тегом «gradient-descent»

4
Піторх, які градієнтні аргументи
Я читав документацію PyTorch і знайшов приклад, де вони пишуть gradients = torch.FloatTensor([0.1, 1.0, 0.0001]) y.backward(gradients) print(x.grad) де x була початковою змінною, з якої побудований y (3-вектор). Питання в тому, які аргументи тензора градієнтів 0,1, 1,0 та 0,0001? Документація щодо цього не дуже зрозуміла.


9
Чому слід зважувати нейромережі до випадкових чисел? [зачинено]
Зачинено. Це питання не відповідає вказівкам щодо переповнення стека . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для переповнення стека. Закрито вчора . Удосконаліть це питання Я намагаюся побудувати нейромережу з нуля. По всій літературі про ІС існує єдиний висновок про те, що …

5
Поширені причини нансу під час тренування
Я помітив, що під час тренувань NANвводяться часті випадки . Часто здається, що це вводиться вагами у продувних шарах внутрішнього продукту / повністю з'єднаних або звивин. Це відбувається тому, що обчислення градієнта роздувається? Або це через ініціалізацію ваги (якщо так, чому ініціалізація ваги має такий ефект)? Або це, ймовірно, спричинено …

1
R: реалізація власного алгоритму збільшення градієнта
Я намагаюся написати власний алгоритм збільшення градієнта. Я розумію , що є існуючі пакети , як gbmі , xgboost,але я хотів би зрозуміти , як працює алгоритм, написавши мій власний. Я використовую irisнабір даних, і мій результат Sepal.Length(безперервний). Моя функція втрати mean(1/2*(y-yhat)^2)(в основному середня помилка квадрата з 1/2 спереду), тому …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.