Запитання з тегом «loss-functions»

Функція, яка використовується для кількісної оцінки різниці між спостережуваними даними та прогнозованими значеннями відповідно до моделі. Мінімізація функцій втрат - це спосіб оцінити параметри моделі.

5
Яка функція втрати для багатокласних завдань з класифікацією на багато міток у нейронних мережах?
Я треную нейронну мережу для класифікації набору об'єктів на n-класи. Кожен об'єкт може належати одночасно до декількох класів (багатокласний, багатозначний). Я читав, що для проблем із класом зазвичай рекомендується використовувати softmax та категоричну перехресну ентропію як функцію втрати замість mse, і я розумію більш-менш чому. У моїй проблемі мульти-етикетки не …

3
Машинне навчання: Чи слід використовувати категоричну перехресну ентропію або бінарну поперечну втрату ентропії для двійкових прогнозів?
Перш за все, я зрозумів, що якщо мені потрібно виконувати двійкові прогнози, я повинен створити принаймні два класи за допомогою кодування з гарячим кодуванням. Це правильно? Однак чи є бінарна перехресна ентропія лише для прогнозів, що мають лише один клас? Якби я використовував категоричну перехресну втрату ентропії, яка зазвичай зустрічається …

5
Вартісна функція нейронної мережі є невипуклою?
Функція вартості нейронної мережі , і вона вважається невипуклою . Я не зовсім розумію, чому це саме так, оскільки, як я бачу, він цілком схожий на вартісну функцію логістичної регресії, правда?J(W,b)J(W,b)J(W,b) Якщо він невипуклий, значить, похідна 2-го порядку , правда?∂J∂W&lt;0∂J∂W&lt;0\frac{\partial J}{\partial W} < 0 ОНОВЛЕННЯ Завдяки нижченаведеним відповідям, а також …

2
Функція витрат у лінійній регресії OLS
Я трохи плутаю лекцію про лінійну регресію, яку виголосив Ендрю Нґ на Coursera про машинне навчання. Там він дав функцію витрат, яка мінімізує суму квадратів: 12 м∑i = 1м( годθ( X( i )) - Y( i ))212м∑i=1м(годθ(Х(i))-Y(i))2 \frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 Я розумію, звідки походить . Я думаю, що він …


4
Яка функція втрати є правильною для логістичної регресії?
Я читав про дві версії функції втрат для логістичної регресії, яка з них є правильною і чому? З машинного навчання Чжоу Ч. (китайською), з :β=(w,b) and βTx=wTx+bβ=(w,b) and βTx=wTx+b\beta = (w, b)\text{ and }\beta^Tx=w^Tx +b l(β)=∑i=1m(−yiβTxi+ln(1+eβTxi))(1)(1)l(β)=∑i=1m(−yiβTxi+ln⁡(1+eβTxi))l(\beta) = \sum\limits_{i=1}^{m}\Big(-y_i\beta^Tx_i+\ln(1+e^{\beta^Tx_i})\Big) \tag 1 З мого курсу коледжу, з :zi=yif(xi)=yi(wTxi+b)zi=yif(xi)=yi(wTxi+b)z_i = y_if(x_i)=y_i(w^Tx_i + b) …

5
Як боротися з ієрархічними / вкладеними даними в машинному навчанні
Я поясню свою проблему на прикладі. Припустимо, ви хочете передбачити дохід фізичної особи за деякими ознаками: {Вік, стать, країна, регіон, місто}. У вас такий навчальний набір даних train &lt;- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
Наближення функції втрати XGBoost з розширенням Тейлора
Як приклад, візьміть об'єктивну функцію моделі XGBoost на ttt -й ітерації: L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) де ℓℓ\ell функція втрат, ftftf_t є ttt «го вихідного дерева і ΩΩ\Omega є регуляризація. Одним із (багатьох) ключових кроків для швидкого обчислення є наближення: L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), де gigig_i і hihih_i є першою та другою похідними функції втрат. Мене …

3
Які наслідки вибору різних функцій втрат у класифікації для приблизної втрати 0-1
Ми знаємо, що деякі об'єктивні функції легше оптимізувати, а деякі - важкі. І є багато функцій втрат, які ми хочемо використовувати, але важко використовувати, наприклад, втрата 0-1. Тож ми знаходимо деякі функції втрати проксі-сервера для виконання роботи. Наприклад, ми використовуємо втрату шарніру або логістичну втрату, щоб "приблизно" втратити 0-1. Наступний …

2
Функція втрати коефіцієнта кістки та поперечної ентропії
Під час навчання піксельних нейронних мереж сегментації пікселів, таких як повністю згорнуті мережі, як ви приймаєте рішення використовувати функцію втрати перехресної ентропії та функцію втрати коефіцієнта кістки? Я усвідомлюю, що це коротке запитання, але не зовсім впевнений, яку ще інформацію надавати. Я переглянув купу документації про дві функції втрат, але …

1
Зниження тренувань знову зменшується. Що відбувається?
Моя втрата тренувань знижується, а потім знову вгору. Це дуже дивно. Втрата перехресної перевірки відстежує втрати тренувань. Що відбувається? У мене є два складених LSTMS наступним чином (на Keras): model = Sequential() model.add(LSTM(512, return_sequences=True, input_shape=(len(X[0]), len(nd.char_indices)))) model.add(Dropout(0.2)) model.add(LSTM(512, return_sequences=False)) model.add(Dropout(0.2)) model.add(Dense(len(nd.categories))) model.add(Activation('sigmoid')) model.compile(loss='binary_crossentropy', optimizer='adadelta') Я навчаю це протягом 100 епох: …

3
Градієнт втрати петлі
Я намагаюся реалізувати базовий градієнт спуску і тестую його за допомогою функції втрати шарніра, тобто . Однак я плутаю градієнт втрат шарніра. Я під враженням, що це такlhinge=max(0,1−y x⋅w)lhinge=max(0,1−y x⋅w)l_{\text{hinge}} = \max(0,1-y\ \boldsymbol{x}\cdot\boldsymbol{w}) ∂∂wlhinge={−y x0if y x⋅w&lt;1if y x⋅w≥1∂∂wlhinge={−y xif y x⋅w&lt;10if y x⋅w≥1 \frac{\partial }{\partial w}l_{\text{hinge}} = \begin{cases} -y\ …

2
Квантильна регресія: функція втрати
Я намагаюся зрозуміти кількісну регресію, але одне, що змушує мене страждати, - це вибір функції втрати. ρτ( u ) = u ( τ)- 1{ u &lt; 0 })ρτ(u)=u(τ−1{u&lt;0})\rho_\tau(u) = u(\tau-1_{\{u<0\}}) Я знаю, що мінімум очікування ρτ( у- у )ρτ(y−u)\rho_\tau(y-u) дорівнює τ%τ%\tau\% -квантилу, але яка інтуїтивна причина починати з цієї функції? …

2
Як розробити та реалізувати асиметричну функцію втрат для регресії?
Проблема У регресії звичайно обчислюється середня помилка у квадраті (MSE) для вибірки: для вимірювання якості прогноктора.MSE=1n∑i=1n(g(xi)−gˆ(xi))2MSE=1n∑i=1n(g(xi)−g^(xi))2 \text{MSE} = \frac{1}{n} \sum_{i=1}^n\left(g(x_i) - \widehat{g}(x_i)\right)^2 Зараз я працюю над проблемою регресії, де мета полягає в тому, щоб передбачити ціну, яку клієнти готові платити за товар з урахуванням ряду числових особливостей. Якщо прогнозована ціна …

4
Оцінка регресії L1 середня, тоді як оцінки регресії L2 означають?
Тож мені було задано питання, за якими центральними заходами L1 (тобто ласо) та L2 (тобто регресія хребта) оцінювали. Відповідь L1 = середня, а L2 = середня. Чи існує якийсь тип інтуїтивного міркування на це? Або це потрібно визначати алгебраїчно? Якщо так, то як мені це робити?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.