Запитання з тегом «optimization»

Використовуйте цей тег для будь-якого використання оптимізації в статистиці.

4
Навіщо використовувати регуляризацію при поліномічній регресії замість зниження ступеня?
Наприклад, при регресії, наприклад, обирати два гіперпараметри - це частота функції (наприклад, найбільший показник многочлена) та величина регуляризації. Що мене бентежить, це чому просто не вибрати функцію низької ємності, а потім ігнорувати будь-яку регуляризацію? Таким чином, це не буде надмірно. Якщо у мене є функція високої ємності разом з регуляризацією, …

1
Мета функції PCA: який зв'язок між максимальною дисперсією та мінімізацією помилок?
Алгоритм PCA можна сформулювати за допомогою кореляційної матриці (припустимо, що дані вже нормалізовані, і ми розглядаємо лише проекцію на перший ПК). Цільову функцію можна записати так:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. Це добре, і для його вирішення використовуємо множники Лагрангія, тобто переписуємо їх як: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w …
32 pca  optimization 

6
Чому б не використати третю похідну для чисельної оптимізації?
Якщо гессіанці настільки хороші для оптимізації (див., Наприклад , метод Ньютона ), навіщо зупинятися на цьому? Давайте скористаємось похідними третьої, четвертої, п’ятої та шостої? Чому ні?

1
Наближення функції втрати XGBoost з розширенням Тейлора
Як приклад, візьміть об'єктивну функцію моделі XGBoost на ttt -й ітерації: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) де ℓℓ\ell функція втрат, ftftf_t є ttt «го вихідного дерева і ΩΩ\Omega є регуляризація. Одним із (багатьох) ключових кроків для швидкого обчислення є наближення: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), де gigig_i і hihih_i є першою та другою похідними функції втрат. Мене …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
Чи може ступінь свободи бути цілим числом?
Коли я використовую GAM, це дає мені залишковий коефіцієнт DF (останній рядок у коді). Що це означає? Виходячи за приклад GAM, загалом, чи може число ступенів свободи бути нецілим числом?26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
Які наслідки вибору різних функцій втрат у класифікації для приблизної втрати 0-1
Ми знаємо, що деякі об'єктивні функції легше оптимізувати, а деякі - важкі. І є багато функцій втрат, які ми хочемо використовувати, але важко використовувати, наприклад, втрата 0-1. Тож ми знаходимо деякі функції втрати проксі-сервера для виконання роботи. Наприклад, ми використовуємо втрату шарніру або логістичну втрату, щоб "приблизно" втратити 0-1. Наступний …

6
Чому слід вивчати опуклу оптимізацію для теоретичного машинного навчання?
Я працюю над теоретичним машинним навчанням - над трансферним навчанням, щоб бути конкретним - для моєї доктора наук. Чому з цікавості я повинен пройти курс опуклої оптимізації? Які переваги від опуклої оптимізації я можу використовувати у своїх дослідженнях теоретичного машинного навчання?

6
Чому менші ваги призводять до спрощення моделей при регуляризації?
Я закінчив курс машинного навчання Ендрю Нґ близько року тому, і зараз пишу моє дослідження середньої математики про роботу логістичної регресії та методи оптимізації ефективності. Однією з таких методик є, звичайно, регуляризація. Метою регуляризації є запобігання надмірного пристосування шляхом розширення функції витрат на включення мети простоти моделі. Ми можемо досягти …

1
Покроковий приклад автоматичної диференціації у зворотному режимі
Не впевнений, чи належить це питання тут, але воно тісно пов'язане з градієнтними методами оптимізації, що, здається, тут є темою. У будь-якому разі сміливо мігруйте, якщо ви думаєте, що інша спільнота має кращі знання з цієї теми. Коротше кажучи, я шукаю покроковий приклад автоматичної диференціації у зворотному режимі . Існує …

1
Які класичні позначення статистики, лінійної алгебри та машинного навчання? І які зв’язки між цими позначеннями?
Коли ми читаємо книгу, розуміння позначень відіграє дуже важливу роль у розумінні змісту. На жаль, різні спільноти мають різні умовні позначення для формулювання моделі та проблеми оптимізації. Чи міг би хтось узагальнити деякі формулювальні позначення тут і навести можливі причини? Я наведу приклад тут: У літературі лінійної алгебри класичною книгою …

6
Для опуклих проблем градієнт стохастичного градієнтного спуску (SGD) завжди вказує на глобальне екстремальне значення?
З огляду на опуклу функцію витрат, використовуючи SGD для оптимізації, ми будемо мати градієнт (вектор) в певний момент під час процесу оптимізації. Моє запитання, з огляду на точку на опуклій, чи градієнт лише вказує в тому напрямку, в якому функція швидко збільшується / зменшується, або градієнт завжди вказує на оптимальну …

3
Що є причиною того, що оптимізатор Адама вважається стійким до значення його гіпер параметрів?
Я читав про оптимізатора Адама для глибокого навчання і натрапив на таке речення у новій книзі « Глибоке навчання » Бенджіо, Гудфлоу та Курвіля: Зазвичай Адам вважається досить надійним у виборі гіпер параметрів, хоча інтенсивність навчання іноді потрібно змінити із запропонованого за замовчуванням. якщо це правда, то велика справа, тому …

1
Як визначити умову закінчення для спуску градієнта?
Власне, я хотів запитати вас, як я можу визначити умову, що закінчується для спуску градієнта. Чи можу я зупинити його на основі кількості ітерацій, тобто враховуючи значення параметрів для, скажімо, 100 ітерацій? Або я повинен зачекати так, що різні в двох параметрах значення "new" і "old" дуже малі на порядок …

4
Оцінка максимальної вірогідності ЕМ для розподілу Вейбулла
Примітка: я публікую запитання колишнього мого студента, який не може самостійно опублікувати з технічних причин. З огляду на зразок з розподілу Weibull з pdf є корисне відсутність змінної подання і, отже, пов'язаний з ним алгоритм EM (очікування-максимізація), який можна використовувати для пошуку MLE з , а не з використанням прямого …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.