Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

1
Математичне / алгоритмічне визначення для накладання
Чи є математичне чи алгоритмічне визначення надфітфінгу? Часто даними визначеннями є класичний двовимірний графік точок з лінією, що проходить через кожну точку, і крива втрати валідації раптово піднімається вгору. Але чи є математично суворе визначення?

3
Чи поєднують методи оптимізації з методами вибірки?
З будь-якого загального алгоритму вибірки можна отримати алгоритм оптимізації. Дійсно, щоб домогтися довільної функції , достатньо скласти зразки з . Для достатньо малих розмірів ці зразки впадуть близько глобального максимуму (або локальних максимумів на практиці) функції .f: x → f( х )f:х→f(х)f: \textbf{x} \rightarrow f(\textbf{x})г∼ еf/ Тг∼еf/Тg \sim e^{f/T}ТТTfff Під …

3
Чи є спосіб максимально / мінімізувати власну функцію в R?
Я намагаюся мінімізувати власну функцію. Він повинен прийняти п'ять параметрів і набір даних і робити всілякі обчислення, виробляючи єдине число як вихід. Я хочу знайти комбінацію з п'яти вхідних параметрів, яка дає найменший вихід моєї функції.
18 r  optimization 

2
Чи використовуються методи пошуку ліній в глибокому навчанні? Чому ні?
Багато навчальних посібників в Інтернеті говорять про спуск градієнта, і майже всі вони використовують фіксований розмір кроку (швидкість навчання ). Чому не застосовується пошук рядків (наприклад, пошук зворотного відстеження чи точний пошук рядків)?αα\alpha

3
Як розмір партії впливає на конвергенцію SGD і чому?
Я бачив подібний висновок з багатьох дискусій, що в міру збільшення розміру міні-партії збіжність SGD насправді стає важчим / гіршим, наприклад, цей документ і ця відповідь . Також я чув, що люди на ранніх етапах використовують такі хитрощі, як невеликі темпи навчання або розмір партії, щоб вирішити цю складність при …

2
Чи слід брати зразки тренувань випадковим чином для міні-пакетних навчальних нейронних мереж без заміни?
Ми визначаємо епоху як пройшла всю сукупність усіх доступних навчальних зразків, а розмір міні-партії - кількість зразків, за яку ми в середньому знаходимо оновлення ваг / зміщення, необхідних для спуску градієнта. Моє запитання - чи слід ми не замінювати з набору навчальних прикладів, щоб генерувати кожну міні-серію в епоху. Я …

2
Чи можна застосовувати спуск градієнта до невипуклих функцій?
Я просто дізнаюся про оптимізацію, і у мене виникають проблеми з розумінням різниці між опуклою та неопуклою оптимізацією. З мого розуміння, опукла функція - це така, де «відрізок лінії між будь-якими двома точками на графіку функції лежить вище або на графіку». У цьому випадку може бути використаний алгоритм спуску градієнта, …


2
Чому ми робимо велику метушню з приводу використання балів Fisher, коли ми підходимо до GLM?
Мені цікаво, чому ми ставимося до встановлення GLMS як до якоїсь особливої ​​проблеми оптимізації. Чи вони? Мені здається, що вони просто максимальна ймовірність, і ми записуємо ймовірність, а потім ... ми її максимально збільшуємо! То чому ми використовуємо бал Фішера замість будь-якої безлічі схем оптимізації, розроблених у прикладній математичній літературі?

3
Який алгоритм оптимізації використовується у функції glm в R?
Можна виконати логіт-регресію в R, використовуючи такий код: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 Схоже, алгоритм оптимізації зблизився - є інформація про номер кроків алгоритму оцінки рибалки: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, …

1
Природні перерви Дженкса в Python: Як знайти оптимальну кількість перерв?
Я знайшов цю реалізацію Python в Дженкс Natural Breaks алгоритму , і я міг би зробити його запустити на моєму комп'ютері Windows 7. Це досить швидко, і він знаходить перерви за кілька разів, враховуючи розмір моїх геоданих. Перш ніж використовувати цей алгоритм кластеризації для моїх даних, я використовував sklearn.clustering.KMeans (тут) …

2
Що відбувається тут, коли я використовую квадратичні втрати для налаштування логістичної регресії?
Я намагаюся використовувати збиток у квадраті, щоб зробити бінарну класифікацію набору даних про іграшки. Я використовую mtcarsнабір даних, використовуйте милю на галон і вагу для прогнозування типу передачі. На графіку нижче показані два типи даних передачі різних кольорів та межа прийняття рішення, породжена різними функціями втрат. Збиток у квадраті - …

2
Залишкова стандартна різниця похибок між оптимальним та glm
Я намагаюся відтворити optimрезультати з простої лінійної регресії, забезпеченої glmабо навіть nlsR-функціями. Оцінки параметрів однакові, але оцінка залишкової дисперсії та стандартні похибки інших параметрів не однакові, особливо коли розмір вибірки невеликий. Я припускаю, що це пов'язано з різницею в тому, як обчислюється залишкова стандартна помилка між максимальною ймовірністю та найменшим …

1
Значення попередження про конвергенцію в glmer
Я використовую glmerфункцію з lme4пакету в R, і я використовую bobyqaоптимізатор (тобто за замовчуванням у моєму випадку). Я отримую попередження, і мені цікаво, що це означає. Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to …

3
Робити великі, розумні (помилкові) ставки
Я намагався кодувати алгоритм, щоб запропонувати ставки в 1X2 (зважених) іграх. В основному, у кожній грі є набір матчів (домашні та виїзні команди): 1: домашні виграші X: малювати 2: виграє гості Для кожного матчу і символу ( 1, Xі 2), я присвою відсоток , який представляє шанси / ймовірність цього …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.