Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

1
Як стохастичний градієнтний спуск може заощадити час порівняно зі звичайним градієнтним спуском?
Стандартний градієнт спуск обчислює градієнт для всього навчального набору даних. for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad Для заздалегідь визначеної кількості епох спочатку обчислюємо градієнтний вектор weights_grad функції втрат для всього набору даних із параметрами вектора параметрів. Стохастичний градієнтний спуск, навпаки, …


1
Чому "розслаблене ласо" відрізняється від стандартного ласо?
Якщо ми почнемо з набору даних , застосуємо до нього Лассо і отримаємо рішення , ми можемо знову застосувати Лассо до набору даних , де - безліч не- нульові індекси , щоб отримати рішення, , що називається "розслабленим LASSO" рішенням (виправте мене, якщо я помиляюся!). Рішення повинно задовольняти умовам Каруша …

1
Чи гарантувала ймовірність журналу в GLM гарантовану конвергенцію до глобальних максимумів?
Мої запитання: Чи гарантовано узагальнені лінійні моделі (ГЛМ) наближаються до глобального максимуму? Якщо так, то чому? Крім того, які обмеження існують у функції зв'язку для забезпечення опуклості? Моє розуміння GLM полягає в тому, що вони максимізують дуже нелінійну функцію вірогідності. Таким чином, я б міг уявити, що існує кілька локальних …

2
Як вибрати правильний алгоритм оптимізації?
Мені потрібно знайти мінімум функції. Читаючи документи на http://docs.scipy.org/doc/scipy/reference/optimize.html я бачу, що існує кілька алгоритмів, які роблять те саме, тобто знаходять мінімум. Як я можу знати, яку вибрати? деякі з перелічених алгоритмів Мінімізуйте функцію, використовуючи алгоритм простого спуску. Мінімізуйте функцію за допомогою алгоритму BFGS. Мінімізуйте функцію за допомогою нелінійного алгоритму …

2
Чому Максимізація очікування важлива для моделей сумішей?
Існує багато літератури, що підкреслюють метод максимізації очікування на моделях сумішей (суміш Гауссова, модель прихованого Маркова тощо). Чому ЕМ важлива? ЕМ - це лише спосіб оптимізації і не використовується широко як градієнтний метод (метод градієнта пристойний або метод ньютона / квазі-ньютона) або інший метод без градієнтів, обговорений ТУТ . Крім …

1
Роз'яснення щодо правила Perceptron vs. Gradient Descent проти Stohastic Gradient Descent
Я трохи експериментував з різними реалізаціями Perceptron і хочу переконатися, чи правильно я розумію "ітерації". Первісне правило персептрона Розенблатта Наскільки я розумію, в класичному алгоритмі Розенблатта ваги одночасно оновлюються після кожного прикладу тренувань через Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i де - це правило навчання. І цільове, і фактичне …

2
Оцінка ARIMA вручну
Я намагаюся зрозуміти, як оцінюються параметри в моделюванні ARIMA / Box Jenkins (BJ). На жаль, жодна з книг, з якими я стикався, не детально описує процедуру оцінки, таку як процедура оцінки вірогідності. Я знайшов веб-сайт / навчальний матеріал, який був дуже корисним. Далі йде рівняння з джерела, на яке згадувалося …

1
Як CNN уникає зникаючої градієнтної проблеми
Я багато читав про нейромережі, що розвиваються, і цікавився, як вони уникають проблеми градієнта, що зникає. Я знаю, що мережі глибокої віри складають однорівневі автокодери або інші заздалегідь підготовлені неглибокі мережі, і таким чином можна уникнути цієї проблеми, але я не знаю, як цього уникнути в CNN. За даними Вікіпедії …

1
Чому я не можу зіставити результат glmer (family = binomial) з ручною реалізацією алгоритму Гаусса-Ньютона?
Я хотів би співставити результати lmer (дійсно glmer) із прикладом іграшкового двочлена. Я читав віньєтки і вважаю, що розумію, що відбувається. Але, мабуть, ні. Після застрягання я виправив "правду" з точки зору випадкових ефектів і пішов після оцінки фіксованих ефектів поодинці. Я включаю цей код нижче. Щоб побачити, що це …

1
Чому жоден ReLU не може вивчити RELU?
У процесі моєї нейронної мережі навіть не можна вивчити евклідову відстань, я ще більше спростив і спробував навчити один РеЛУ (з випадковою вагою) до одного РеЛУ. Це найпростіша мережа, яка є, і все ж половину часу вона не зможе конвергуватися. Якщо початкова здогадка має таку саму орієнтацію, що і ціль, …

1
Чому важливо включити термін корекції зміщення для оптимізатора Адама для глибокого навчання?
Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Беґніо, Гудфллоу та Кортвіла: Адам включає коригування зміщення оцінок як моментів першого порядку (термін імпульсу), так і (безцентрованих) моментів другого порядку для обліку їх ініціалізації при початку. видається, що основною …

3
Різниця у використанні нормалізованого градієнта та градієнта
У загальному налаштуванні алгоритму спуску градієнта у нас є де - поточна точка, - розмір кроку, а - градієнт оцінюється на . хn + 1= хн- η∗ gr a dя е н тхнхн+1=хн-η∗гrагiентхнx_{n+1} = x_{n} - \eta * gradient_{x_n}хнхнx_nηη\etaгr a dя е н тхнгrагiентхнgradient_{x_n}хнхнx_n Я бачив в якомусь алгоритмі, люди …

4
Як слід замовити вибір функції та оптимізацію гіперпараметрів у трубопроводі машинного навчання?
Моя мета - класифікувати сенсорні сигнали. Поняття мого рішення поки що: i) Інженерні особливості з необробленого сигналу ii) Вибір відповідних функцій за допомогою функції ReliefF та кластеризації підходу iii) Застосування NN, Random Forest та SVM Однак я захоплений дилемою. У ii) та iii) існують гіперпараметри, такі як k-Найближчі Neigbours для …

1
Як працює L-BFGS?
Метою статті була оптимізація деяких параметрів шляхом максимальної регульованості вірогідності журналу. Потім вони обчислюють Часткові похідні. Потім автори згадують, що вони оптимізують рівняння за допомогою L-BFGS, стандартної квазі-ньютонівської процедури для оптимізації гладких функцій багатьох змінних (більше деталей). Як це працює ?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.