Запитання з тегом «gradient-descent»

Градієнтний спуск - це алгоритм пошуку мінімуму функції. Він ітераційно обчислює часткові похідні (градієнти) функції і опускається кроками пропорційно цим частковим похідним. Одним із основних застосувань Gradient Descent є пристосування параметризованої моделі до набору даних: функція, яку слід мінімізувати, є функцією помилки для моделі.

4
Scikit-learn: отримання SGDClassifier для прогнозування, а також логістичної регресії
Способом навчання логістичної регресії є використання стохастичного градієнтного спуску, яке scikit-learn пропонує інтерфейс. Що я хотів би зробити, це взяти SGDClassifier для scikit-learn і мати його так, як логістична регресія тут . Однак я повинен бракувати деяких удосконалень машинного навчання, оскільки мої бали не рівноцінні. Це мій поточний код. Що …

3
Чим відрізняється градієнтний спуск від стохастичного градієнтного спуску?
Чим відрізняється градієнтний спуск від стохастичного градієнтного спуску? Я не дуже знайомий з цими, чи можете ви описати різницю на короткому прикладі?

4
Чи завжди спуск градієнта до оптимального?
Мені цікаво, чи є сценарій, коли спуск градієнта не зближується до мінімуму. Я усвідомлюю, що спуск градієнта не завжди гарантується для сходу до глобального оптимуму. Я також усвідомлюю, що це може відрізнятися від оптимального, якщо, скажімо, розмір кроку занадто великий. Однак мені здається, що якщо воно буде відходити від якогось …

1
Чому ReLU кращий за інші функції активації
Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців …


1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

4
Чому прискорюється спуск градієнта, якщо функція плавна?
Зараз я читаю книгу під назвою "Ручне машинне навчання за допомогою Scikit-Learn та TensorFlow", і в главі 11 вона містить такий опис щодо пояснення ELU (Exponential ReLU). По-третє, функція скрізь гладка, в тому числі навколо z = 0, що сприяє прискоренню градієнтного спуску, оскільки воно не відскакує стільки, скільки вліво …

1
Наскільки гнучким є зв’язок між цільовою функцією та функцією активації вихідного шару?
Здається, що у багатьох пакетах нейронної мережі стандартне поєднання цільової функції мінімізується з функцією активації у вихідному шарі. Наприклад, для лінійного вихідного шару, що використовується для регресії, стандартно (і часто це лише вибір) мати функцію об'єктивної помилки. Ще одне звичайне сполучення - це логістичний вихід та втрата журналу (або перехресна …

2
Стохастичний градієнтний спуск на основі векторних операцій?
припустимо, що я хочу навчити алгоритм регресії стохастичного градієнта спуску за допомогою набору даних, що містить N зразків. Оскільки розмір набору даних є фіксованим, я повторно використовую дані T разів. Під час кожної ітерації або "епохи" я використовую кожен зразок тренінгу рівно один раз після випадкового переупорядкування всього навчального набору. …

2
Чому швидкість навчання призводить до того, що вага моєї нейронної мережі зростає?
Я використовую tensorflow для написання простих нейронних мереж для невеликих досліджень, і у мене було багато проблем з «нанними» вагами під час тренування. Я спробував багато різних рішень, таких як зміна оптимізатора, зміна втрат, розмір даних тощо, але безрезультатно. Нарешті, я помітив, що зміна рівня навчання внесла неймовірну зміну у …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.