Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

8
Чому метод Ньютона не широко застосовується в машинному навчанні?
Це те, що мене клопоче якийсь час, і я не зміг знайти задовільних відповідей в Інтернеті, тож ось: Переглянувши набір лекцій з питань опуклої оптимізації, метод Ньютона, здається, є значно кращим алгоритмом, ніж градієнтне сходження, щоб знайти глобально оптимальні рішення, тому що метод Ньютона може забезпечити гарантію його рішення, він …

3
Пакетний градієнтний спуск порівняно зі стохастичним градієнтом
Припустимо, у нас є якийсь навчальний набір для . Припустимо також, що ми використовуємо певний тип алгоритму керованого навчання на навчальному наборі. Гіпотези представлені у вигляді . Нам потрібно знайти параметри які мінімізують "відстань" між і . Нехай(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} …

6
Чи можливо тренувати нейронну мережу без зворотного розповсюдження?
Багато книг та навчальних посібників з нейронної мережі витрачають багато часу на алгоритм зворотного розповсюдження, який по суті є інструментом для обчислення градієнта. Припустимо, ми будуємо модель з параметрами / вагами ~ 10K. Чи можливо запустити оптимізацію за допомогою деяких алгоритмів оптимізації без градієнта? Я думаю, що обчислення числового градієнта …

2
функція активації tanh проти функції активації сигмоїдів
Функція активації tanh: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Де , сигмоїдна функція, визначається як: .σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} Запитання: Чи дійсно має значення між цими двома функціями активації (tanh vs. sigma)? Яка функція краще в яких випадках?

7
Навіщо оптимізувати максимальну ймовірність журналу замість ймовірності
У більшості завдань машинного навчання, де можна сформулювати деяку ймовірність яку слід максимально збільшити, ми б насправді оптимізували ймовірність замість ймовірності для деяких параметрів . Наприклад, у навчанні з максимальною вірогідністю, зазвичай це ймовірність журналу. Якщо робити це за допомогою градієнтного методу, це включає чинник:ppplogplog⁡p\log pθθ\theta ∂logp∂θ=1p⋅∂p∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial …

7
Оптимізація, коли функція витрат повільно оцінюється
Градієнтний спуск та багато інших методів корисні для пошуку місцевих мінімумів у функціях витрат. Вони можуть бути ефективними, коли функцію витрат можна швидко оцінити в кожній точці, чисельно, чи аналітично. У мене є те, що мені здається незвичайною ситуацією. Кожна оцінка моєї функції витрат дорога. Я намагаюся знайти набір параметрів, …

5
Що таке інтуїтивне пояснення того, як PCA перетворюється з геометричної задачі (з відстанями) в задачу лінійної алгебри (з власними векторами)?
Я багато читав про PCA, включаючи різні підручники та запитання (такі як цей , цей , цей і цей ). Геометрична проблема, яку PCA намагається оптимізувати, для мене зрозуміла: PCA намагається знайти перший головний компонент, зводячи до мінімуму помилку реконструкції (проекції), що одночасно максимізує дисперсію прогнозованих даних. Коли я вперше …

4
Яка різниця між нахилом градієнта на основі імпульсу та прискореним градієнтом спуску Нестерова?
Тож спуск на градієнті на основі імпульсу працює так: v = s e l f. m o m e n t u m ∗ m - l r ∗ gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g де - попереднє оновлення ваги, а g - поточний градієнт щодо параметрів p , l r - рівень навчання, а …

1
Розуміння "майже весь локальний мінімум має дуже подібне значення функції до глобального оптимуму"
У недавньому дописі блогу Ронге Ге сказано, що: Вважається, що для багатьох проблем, включаючи вивчення глибоких мереж, майже всі локальні мінімуми мають дуже схоже значення функції з глобальним оптимумом, а значить, знайти локальний мінімум досить добре. Звідки походить ця віра?

1
Як працює метод Адама стохастичного градієнтного спуску?
Мені знайомі основні алгоритми спуску градієнта для навчання нейронних мереж. Я прочитав документ, що пропонує Адаму: АДАМ: МЕТОД СТОХАСТИЧНОЇ ОПТИМІЗАЦІЇ . Хоча я, безумовно, отримав деяку інформацію (принаймні), папір здається мені занадто високим рівнем. Наприклад, функція витрат часто є сумою безлічі різних функцій, тому для оптимізації її значення необхідно зробити …

1
Нейронні мережі: імпульс зміни ваги та зменшення ваги
Момент використовується для зменшення коливань змін ваги протягом послідовних ітерацій:αα\alpha Δωi(t+1)=−η∂E∂wi+αΔωi(t),Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), де - функція помилки, - вектор ваг, - швидкість навчання.E(w)E(w)E({\bf w})ww{\bf w}ηη\eta Зниження ваги карає зміни ваги:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i Питання полягає в тому, чи є …

5
Практична оптимізація гіперпараметрів: пошук випадкових та сіткових
Зараз я переживаю випадковий пошук Bengio та Bergsta для оптимізації гіперпараметрів [1], де автори стверджують, що випадковий пошук є більш ефективним, ніж пошук в сітці, щоб досягти приблизно однакової продуктивності. Моє запитання: Чи згодні люди з цим твердженням? У своїй роботі я використовував пошук в сітці здебільшого через відсутність інструментів, …

1
Чому glmer не досягає максимальної ймовірності (як це підтверджено шляхом подальшої загальної оптимізації)?
Чисельне отримання MLE з GLMM є складним, і, на практиці, я знаю, ми не повинні використовувати оптимізацію грубої сили (наприклад, використовуючи optimпростий спосіб). Але для власного навчального призначення я хочу спробувати це, щоб переконатися, що я правильно розумію модель (див. Код нижче). Я виявив, що завжди отримую суперечливі результати glmer(). …

3
Порівняння SVM та логістичної регресії
Чи може хтось, будь ласка, дати мені трохи зрозуміти, коли вибрати SVM чи LR? Я хочу зрозуміти інтуїцію, в чому полягає різниця між критеріями оптимізації вивчення гіперплану двох, де відповідні цілі такі: SVM: Намагайтеся максимально збільшувати запас між найближчими векторами підтримки LR: Максимізуйте ймовірність заднього класу Розглянемо лінійний простір функцій …

5
Чи можете ви переобладнати, навчаючи алгоритми машинного навчання за допомогою CV / Bootstrap?
Це питання може бути занадто відкритим, щоб отримати остаточну відповідь, але, сподіваємось, ні. Алгоритми машинного навчання, такі як SVM, GBM, Random Forest тощо, як правило, мають деякі вільні параметри, які, крім деякого правила керівництва, повинні бути налаштовані на кожен набір даних. Як правило, це робиться за допомогою певної техніки повторного …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.