Запитання з тегом «optimization»

У статистиці це стосується вибору оцінювача параметра шляхом максимізації або мінімізації деякої функції даних. Одним дуже поширеним прикладом є вибір оцінника, який максимально збільшує щільність суглоба (або функцію маси) спостережуваних даних, що називаються максимальною оцінкою ймовірності (MLE).

8
Вибір курсу навчання
Зараз я працюю над впровадженням стохастичного градієнтного спуску SGDдля нейронних мереж, що використовують зворотне розповсюдження, і, хоча я розумію його мету, у мене є деякі питання щодо того, як вибрати значення для швидкості навчання. Чи пов’язана ступінь навчання з формою градієнта помилок, оскільки це диктує швидкість спуску? Якщо так, то …

4
Чи слід перекваліфікувати модель, якщо є нові спостереження?
Отже, мені не вдалося знайти жодної літератури на цю тему, але здається, що варто щось думати: Які найкращі практики у навчанні та оптимізації моделей за наявності нових спостережень? Чи є спосіб визначити період / частоту перепідготовки моделі до того, як прогнози почнуть погіршуватися? Чи надмірно підходить, якщо параметри оптимізуються для …

1
Чи є правила вибору розміру міні-партії?
При тренуванні нейронних мереж один гіперпараметр має розмір міні-партії. Поширені варіанти - 32, 64 та 128 елементів на міні-партію. Чи є якісь правила / настанови, якою має бути міні-партія? Будь-які публікації, які досліджують вплив на навчання?

4
Чи завжди спуск градієнта до оптимального?
Мені цікаво, чи є сценарій, коли спуск градієнта не зближується до мінімуму. Я усвідомлюю, що спуск градієнта не завжди гарантується для сходу до глобального оптимуму. Я також усвідомлюю, що це може відрізнятися від оптимального, якщо, скажімо, розмір кроку занадто великий. Однак мені здається, що якщо воно буде відходити від якогось …

3
Вказівки щодо вибору оптимізатора для тренування нейронних мереж
Я вже деякий час використовую нейронні мережі. Однак одне, з чим я постійно борюся, - це вибір оптимізатора для тренінгу в мережі (використовуючи backprop). Що я зазвичай роблю, це просто почати з одного (наприклад, стандартний SGD), а потім спробувати інші інші, майже випадковим чином. Мені було цікаво, чи є кращий …

2
місцеві мінімуми проти сідлових точок у глибокому навчанні
Я чув, як Ендрю Нг (у відео, якого я, на жаль, більше не можу знайти) розповів про те, як розуміння місцевих мінімумів у проблемах глибокого навчання змінилося в тому сенсі, що вони зараз вважаються менш проблематичними, оскільки у просторах з великими розмірами (зустрічаються в глибоке навчання) критичні точки, швидше, будуть …

1
Скільки функцій для вибірки за допомогою випадкових лісів
Сторінка Вікіпедії, яка цитує "Елементи статистичного навчання", говорить: Як правило, для завдання класифікації з функцій, ⌊ √ppp функції використовуються в кожному розділі.⌊ стор-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Я розумію, що це досить гарна освічена здогадка, і це, мабуть, було підтверджено емпіричними свідченнями, але чи є інші причини, чому можна вибрати квадратний корінь? Чи …

2
Чому генетичні алгоритми не використовуються для оптимізації нейронних мереж?
З мого розуміння, генетичні алгоритми є потужним інструментом оптимізації багато об'єктів. Крім того, навчання нейронних мереж (особливо глибоких) є важким та має багато питань (невипуклі функції витрат - локальні мінімуми, зниклі та вибухові градієнти тощо). Крім того, я вважаю, що концептуальна підготовка NN з GA є можливою. Мені було цікаво, …


2
Чому б не завжди використовувати техніку оптимізації ADAM?
Здається, оптимізатор адаптивного оцінювання моменту (Адама) майже завжди працює краще (швидше і надійніше досягаючи глобального мінімуму), коли мінімізує функцію витрат на навчання нейронних мереж. Чому б не завжди використовувати Адама? Навіщо навіть турбуватися використанням RMSProp або оптимізаторів імпульсу?

1
Координатний спуск Fisher Scoring v / s для MLE в R
Основна функція R glm()використовує Fisher Scoring для MLE, тоді як, glmnetсхоже, використовується метод спуску координат для вирішення того ж рівняння. Координатний спуск є більш ефективним за часом, ніж Fisher Scoring, оскільки Fisher Scoring обчислює похідну матрицю другого порядку, окрім деяких інших операцій з матрицею. що робить дорогим виконання, тоді як …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

2
Чому швидкість навчання призводить до того, що вага моєї нейронної мережі зростає?
Я використовую tensorflow для написання простих нейронних мереж для невеликих досліджень, і у мене було багато проблем з «нанними» вагами під час тренування. Я спробував багато різних рішень, таких як зміна оптимізатора, зміна втрат, розмір даних тощо, але безрезультатно. Нарешті, я помітив, що зміна рівня навчання внесла неймовірну зміну у …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.