Наука про дані optimization

8

Зараз я працюю над впровадженням стохастичного градієнтного спуску SGDдля нейронних мереж, що використовують зворотне розповсюдження, і, хоча я розумію його мету, у мене є деякі питання щодо того, як вибрати значення для швидкості навчання. Чи пов’язана ступінь навчання з формою градієнта помилок, оскільки це диктує швидкість спуску? Якщо так, то …

85 machine-learning neural-network deep-learning optimization hyperparameter

4

Чи слід перекваліфікувати модель, якщо є нові спостереження?

Отже, мені не вдалося знайти жодної літератури на цю тему, але здається, що варто щось думати: Які найкращі практики у навчанні та оптимізації моделей за наявності нових спостережень? Чи є спосіб визначити період / частоту перепідготовки моделі до того, як прогнози почнуть погіршуватися? Чи надмірно підходить, якщо параметри оптимізуються для …

28 machine-learning predictive-modeling optimization training

1

Чи є правила вибору розміру міні-партії?

При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію. Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?

21 neural-network deep-learning convnet optimization

4

Чи завжди спуск градієнта до оптимального?

Мені цікаво, чи є сценарій, коли спуск градієнта не зближується до мінімуму. Я усвідомлюю, що спуск градієнта не завжди гарантується для сходу до глобального оптимуму. Я також усвідомлюю, що це може відрізнятися від оптимального, якщо, скажімо, розмір кроку занадто великий. Однак мені здається, що якщо воно буде відходити від якогось …

21 machine-learning neural-network deep-learning optimization gradient-descent

3

Вказівки щодо вибору оптимізатора для тренування нейронних мереж

Я вже деякий час використовую нейронні мережі. Однак одне, з чим я постійно борюся, - це вибір оптимізатора для тренінгу в мережі (використовуючи backprop). Що я зазвичай роблю, це просто почати з одного (наприклад, стандартний SGD), а потім спробувати інші інші, майже випадковим чином. Мені було цікаво, чи є кращий …

18 neural-network optimization backpropagation

2

місцеві мінімуми проти сідлових точок у глибокому навчанні

Я чув, як Ендрю Нг (у відео, якого я, на жаль, більше не можу знайти) розповів про те, як розуміння місцевих мінімумів у проблемах глибокого навчання змінилося в тому сенсі, що вони зараз вважаються менш проблематичними, оскільки у просторах з великими розмірами (зустрічаються в глибоке навчання) критичні точки, швидше, будуть …

18 machine-learning deep-learning optimization convergence

1

Скільки функцій для вибірки за допомогою випадкових лісів

Сторінка Вікіпедії, яка цитує "Елементи статистичного навчання", говорить: Як правило, для завдання класифікації з функцій, ⌊ √ppp функції використовуються в кожному розділі.⌊ стор-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Я розумію, що це досить гарна освічена здогадка, і це, мабуть, було підтверджено емпіричними свідченнями, але чи є інші причини, чому можна вибрати квадратний корінь? Чи …

14 statistics random-forest optimization evaluation sampling

2

Чому генетичні алгоритми не використовуються для оптимізації нейронних мереж?

З мого розуміння, генетичні алгоритми є потужним інструментом оптимізації багато об'єктів. Крім того, навчання нейронних мереж (особливо глибоких) є важким та має багато питань (невипуклі функції витрат - локальні мінімуми, зниклі та вибухові градієнти тощо). Крім того, я вважаю, що концептуальна підготовка NN з GA є можливою. Мені було цікаво, …

13 neural-network optimization genetic-algorithms

4

Чи градієнтний спуск є центральним для кожного оптимізатора?

Хочеться знати, чи є градієнтне походження основним алгоритмом, який використовується в таких оптимізаторах, як Adam, Adagrad, RMSProp та кілька інших оптимізаторів.

13 machine-learning neural-network deep-learning optimization gradient-descent

2

Чому б не завжди використовувати техніку оптимізації ADAM?

Здається, оптимізатор адаптивного оцінювання моменту (Адама) майже завжди працює краще (швидше і надійніше досягаючи глобального мінімуму), коли мінімізує функцію витрат на навчання нейронних мереж. Чому б не завжди використовувати Адама? Навіщо навіть турбуватися використанням RMSProp або оптимізаторів імпульсу?

13 neural-network optimization

1

Координатний спуск Fisher Scoring v / s для MLE в R

Основна функція R glm()використовує Fisher Scoring для MLE, тоді як, glmnetсхоже, використовується метод спуску координат для вирішення того ж рівняння. Координатний спуск є більш ефективним за часом, ніж Fisher Scoring, оскільки Fisher Scoring обчислює похідну матрицю другого порядку, окрім деяких інших операцій з матрицею. що робить дорогим виконання, тоді як …

11 machine-learning r algorithms optimization

3

Кращі мови для наукових обчислень [закрито]

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

Чому швидкість навчання призводить до того, що вага моєї нейронної мережі зростає?

Я використовую tensorflow для написання простих нейронних мереж для невеликих досліджень, і у мене було багато проблем з «нанними» вагами під час тренування. Я спробував багато різних рішень, таких як зміна оптимізатора, зміна втрат, розмір даних тощо, але безрезультатно. Нарешті, я помітив, що зміна рівня навчання внесла неймовірну зміну у …

9 machine-learning python tensorflow optimization gradient-descent

Запитання з тегом «optimization»