Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

1
Чому класифікатор наївних баєсів оптимальний для втрати 0-1?
Класифікатор Naive Bayes - це класифікатор, який присвоює елементи хxx класу СCC на основі максимізації заднього П( С| х)P(C|x)P(C|x) для приналежності до класу, і передбачає, що функції елементів не залежать. Втрата 0-1 - це втрата, яка присвоює будь-якій помилковій класифікації втрату "1", а втрату "0" - будь-якій правильній класифікації. Я …

1
Чому на практиці не застосовується алгоритм спуску «Без сідла» Ньютона?
Нещодавно я прочитав статтю Янна Дофіна та ін. Виявлення та атака проблеми сідлових точок у великомірній невипуклій оптимізації , де вони запроваджують цікавий алгоритм спуску під назвою Ньютон , що не є сідлом , який, здається, є спеціально розробленим для оптимізації нейронної мережі і не повинен страждати від застрявання в …




1
Налаштування гіперпараметра в регресії Гауссового процесу
Я намагаюся налаштувати гіперпараметри алгоритму регресії гауссового процесу, який я реалізував. Я просто хочу максимально збільшити граничну ймовірність журналу, задану формулою де K - матриця коваріації з елементи K_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j)) …

2
Як вирішити найменше абсолютне відхилення симплексним методом?
аргхвшL ( w ) = ∑нi = 1| уi- шТх |арг⁡хвшL(ш)=∑i=1н|уi-шТх| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| хв ∑нi = 1уiхв∑i=1нуi\min \sum_{i=1}^{n}u_{i} уi≥ xТш - уii = 1 , … , nуi≥хТш-уii=1,…,нu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n уi≥ - ( хТш - уi)i = 1 , … , nуi≥-(хТш-уi)i=1,…,нu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; …

1
Оптимізатор lme4 за замовчуванням потребує безлічі ітерацій для об'ємних даних
TL; DR: lme4оптимізація виявляється лінійним по числу параметрів моделі за замовчуванням, і шлях повільніше , ніж аналогічна glmмодель з фіктивними змінними для груп. Чи можна щось зробити, щоб прискорити це? Я намагаюся вписати досить велику ієрархічну модель logit (~ 50k рядків, 100 стовпців, 50 груп). Встановлення нормальної моделі logit до …

2
Показано еквівалентність між нормалізованою регресією регрес та нормально обмеженою регресією за допомогою KKT
Відповідно до посилань Книга 1 , Книга 2 та папір . Було зазначено, що існує рівнозначність між регульованою регресією (Ridge, LASSO та Elastic Net) та їх формулами обмеження. Я також переглянув Cross Valified 1 та Cross Validated 2 , але я не можу побачити чітку відповідь, що свідчить про еквівалентність …

1
Що означає "варіаційний"?
Чи завжди використання "варіативної" стосується оптимізації за допомогою варіативного висновку? Приклади: "Варіаційний автоматичний кодер" "Варіаційні баєсові методи" "Варіаційна група ренормалізації"

1
RMSProp та Adam проти SGD
Я виконую експерименти над набором валідації EMNIST, використовуючи мережі з RMSProp, Adam та SGD. Я досягаю 87% точності за допомогою SGD (ступінь навчання 0,1) та випадання (0,1 випадання задачі), а також регуляризація L2 (1e-05 штраф). Перевіряючи таку саму точну конфігурацію з RMSProp та Адамом, а також початковий рівень навчання 0,001, …

2
Використовуйте коефіцієнт кореляції Пірсона як оптимізацію в машинному навчанні
У машинному навчанні (для проблем з регресією) я часто бачу середню квадратичну помилку (MSE) або середню абсолютну помилку (MAE), яка використовується як функція помилок для мінімізації (плюс термін регуляризації). Мені цікаво, чи є ситуації, коли використання коефіцієнта кореляції було б більш доцільним? якщо така ситуація існує, то: За яких ситуацій …

2
Оптимальне підключення відносно заданої змінної відповіді
Я шукаю оптимальний метод бінінгу (дискретизація) безперервної змінної щодо заданої відповіді (цільової) бінарної змінної та з максимальною кількістю інтервалів як параметр. Приклад: У мене є набір спостережень за людьми зі змінними "висота" (число безперервно) та "has_back_pains" (бінарні). Я хочу розрізнити висоту на 3 інтервали (групи) максимум з різною часткою людей …

1
Який зв’язок між регуляризацією та методом множників лагранжу?
Для запобігання перевитрати людей люди додають термін регуляризації (пропорційний площі суми параметрів моделі) з параметром регуляризації до функції витрат лінійної регресії. Чи цей параметр збігається з множником лагранжу? Тож чи регуляризація така ж, як метод множника лагранжу? Або як пов’язані ці методи? λλ\lambdaλλ\lambda

1
Точний тест Фішера та гіпергеометричне поширення
Я хотів краще зрозуміти точний тест Фішера, тому я розробив наступний іграшковий приклад, де f і m відповідає чоловічому та жіночому, а n і y відповідає такому "споживання соди", як це: > soda_gender f m n 0 5 y 5 0 Очевидно, це різке спрощення, але я не хотів, щоб …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.