Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

4
Чому алгоритми оптимізації визначаються з точки зору інших проблем оптимізації?
Я займаюся деякими дослідженнями методів оптимізації машинного навчання, але я здивований, коли велика кількість алгоритмів оптимізації визначено в плані інших проблем оптимізації. Деякі приклади проілюструю нижче. Наприклад https://arxiv.org/pdf/1511.05133v1.pdf Все виглядає красиво і добре , але тоді ця в г K + 1 оновлення .... так що алгоритм , який вирішує …

2
Чи є методи машинного навчання «алгоритмами наближення»?
Нещодавно виникло питання, схоже на ML, щодо зміни обстановки стекерів, і я опублікував відповідь, рекомендуючи метод Пауелла, градієнтне походження, генетичні алгоритми чи інші "алгоритми наближення". У коментарі хтось сказав мені, що ці методи були "евристикою", а не "алгоритмами наближення" і часто не наближалися до теоретичного оптимуму (оскільки вони "часто застрягають …

4
Чи завжди існує максимізатор для будь-якої проблеми з MLE?
Цікаво, чи завжди існує максимізатор для будь-якої проблеми з оцінкою ймовірності максимальної (log-)? Іншими словами, чи є деякий розподіл та деякі його параметри, для яких проблема MLE не має максимізатора? Моє запитання випливає із твердження інженера, що функція витрат (вірогідність чи схожість на журнал, я не впевнений, що було призначено) …

3
Координатний та градієнтний спуск
Мені було цікаво, які різні випадки використання для двох алгоритмів, Координатного спуску та Градієнтного Спуску . Я знаю, що спуск координат має проблеми з негладкими функціями, але він використовується в популярних алгоритмах, таких як SVM і LASSO. Однак градієнтний спуск, на мою думку, застосовується ширше, особливо при відродженні ANN та …

1
Чому функція витрат нейронних мереж не випукла?
Тут є подібна нитка ( Функція вартості нейронної мережі не випукла? ), Але я не зміг зрозуміти моменти у відповідях там, і моя причина знову запитати, сподіваючись, що це прояснить деякі проблеми: Якщо я використовую функцію вартості різниці у квадраті, я в кінцевому підсумку оптимізую щось із вигляду де - …

4
Як забезпечити властивості коваріаційної матриці при встановленні багатоваріантної нормальної моделі з максимальною ймовірністю?
Припустимо, у мене є така модель yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i де yi∈RKyi∈RKy_i\in \mathbb{R}^K , xixix_i - вектор пояснювальних змінних, θθ\theta - параметри нелінійної функції fff і εi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma) , де ΣΣ\Sigma природно - матриця K×KK×KK\times K Мета звичайна для оцінки θθ\theta і ΣΣ\Sigma . Очевидним вибором є метод максимальної ймовірності. Вхід правдоподібності для …

3
Чому максимальна ймовірність і не очікувана ймовірність?
Чому так часто буває отримання максимальних оцінок ймовірності параметрів, але ви практично ніколи не чуєте про очікувані оцінки параметрів ймовірності (тобто виходячи з очікуваного значення, а не режиму функції ймовірності)? Це в першу чергу з історичних причин, або з більш предметних технічних чи теоретичних причин? Чи будуть суттєві переваги та …

2
Як вибрати між алгоритмами навчання
Мені потрібно реалізувати програму, яка класифікує записи на 2 категорії (правда / хибність) на основі деяких навчальних даних, і мені було цікаво, на який алгоритм / методологію я повинен дивитись. Здається, що їх вибирати дуже багато - штучна нейронна мережа, генетичний алгоритм, машинне навчання, байєсова оптимізація тощо тощо, і я …

1
Чи є інтуїтивне пояснення, чому логістична регресія не буде працювати для ідеального випадку розлуки? І чому додавання регуляризації виправить це?
У нас є багато хороших дискусій про ідеальне розділення в логістичній регресії. Такі як, Логістична регресія в R призвели до ідеального роз'єднання (феномен Хока-Доннера). А тепер що? і логістична регресійна модель не збігається . Я особисто все ще вважаю, що це не інтуїтивно, чому це буде проблема і чому додавання …

7
Чому настільки важливі симетричні позитивні матриці (SPD)?
Я знаю визначення матриці симетричного позитивного певного (SPD), але хочу зрозуміти більше. Чому вони такі важливі, інтуїтивно? Ось що я знаю. Що ще? Для даних даних матриця ко-дисперсії - SPD. Матриця ко-дисперсії є важливою метрикою, див. Цей чудовий пост для інтуїтивного пояснення. Квадратична форма випукла, якщо SPD. Опуклість - це …

2
Чому в нейронних мережах застосовують градієнтні методи, а не інші метагевристики?
При навчанні глибоких і неглибоких нейронних мереж, чому градієнтні методи (наприклад, спуск градієнта, Нестеров, Ньютон-Рафсон), зазвичай використовуються, на відміну від інших метагевристів? Під метагевристикою я маю на увазі такі методи, як імітація відпалу, оптимізація колоній мурашок тощо, які були розроблені, щоб уникнути застрявання в локальних мінімумах.

2
Які методи оптимізації найкраще працюють для LSTM?
Я використовував theano для експерименту з LSTM, і мені було цікаво, які методи оптимізації (SGD, Adagrad, Adadelta, RMSprop, Adam тощо) найкраще працюють для LSTM? Чи є якісь наукові роботи на цю тему? Також, чи залежить відповідь від типу програми, для якої я використовую LSTM? Якщо так, я використовую LSTM для …

3
Коли генетичні алгоритми є хорошим вибором для оптимізації?
Генетичні алгоритми є однією з форм методу оптимізації. Часто стохастичний градієнтний спуск та його похідні є найкращим вибором для оптимізації функцій, але генетичні алгоритми все ще іноді застосовуються. Наприклад, антена космічного корабля ST5 NASA була створена за допомогою генетичного алгоритму: Коли методи генетичної оптимізації є кращим вибором, ніж більш поширені …

2
Яке значення має суперскрипт 2 підрозділу 2 у контексті норм?
Я новачок в оптимізації. Я продовжую бачити рівняння , у яких праворуч від норми є суперскрипт 2 та підпис 2. Наприклад, ось рівняння найменших квадратів хв ||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 Я думаю, що я розумію суперскрипт 2: це означає вирівняти значення норми. Але що таке індекс 2? Як я повинен прочитати ці …

1
Чому використання методу Ньютона для оптимізації логістичної регресії називають ітераційними перезваженими найменшими квадратами?
Чому використання методу Ньютона для оптимізації логістичної регресії називають ітераційними перезваженими найменшими квадратами? Мені це здається незрозумілим, оскільки логістичні втрати та найменші втрати квадратів - це абсолютно різні речі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.