Запитання з тегом «derivative»

Для тематичних питань, що включають математичне поняття похідної, тобто ddхf(х). З чисто математичних питань щодо похідної краще задавати математику SE https://math.stackexchange.com/

6
Поширення за допомогою Softmax / Cross Entropy
Я намагаюся зрозуміти, як працює розмноження для вихідного шару softmax / cross-entropy. Помилка поперечної ентропії є E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j з ttt і ooo в якості цілі та виходу при нейроні jjj відповідно. Сума знаходиться над кожним нейроном у вихідному шарі. ojojo_j сам по собі результат функції softmax: oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} …

4
Як походить функція витрат з логістичної регресії
Я роблю курс машинного навчання Стенфорда на Coursera. У главі з логістичної регресії функція витрат така: Потім, це похідне тут: Я намагався отримати похідну від функції витрат, але отримав щось зовсім інше. Як отримується похідна? Які є посередницькими кроками?

1
Покроковий приклад автоматичної диференціації у зворотному режимі
Не впевнений, чи належить це питання тут, але воно тісно пов'язане з градієнтними методами оптимізації, що, здається, тут є темою. У будь-якому разі сміливо мігруйте, якщо ви думаєте, що інша спільнота має кращі знання з цієї теми. Коротше кажучи, я шукаю покроковий приклад автоматичної диференціації у зворотному режимі . Існує …

1
Виведення зміни змінних функції щільності ймовірності?
У книзі розпізнавання візерунків та машинне навчання (формула 1.27) він дає py(y)=px(x)∣∣∣dxdy∣∣∣=px(g(y))|g′(y)|py(y)=px(x)|dxdy|=px(g(y))|g′(y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | деx=g(y)x=g(y)x=g(y),px(x)px(x)p_x(x)- pdf, що відповідаєpy(y)py(y)p_y(y) щодо зміни змінної. У книгах сказано, що це тому, що спостереження, що потрапляють у діапазон , при малих значеннях δ x будуть перетворені в …

3
Як я можу прилаштувати сплайн до даних, що містять значення та 1/2 похідні?
У мене є набір даних, який містить, скажімо, деякі вимірювання положення, швидкості та прискорення. Усі походять із одного і того ж «бігу». Я міг би побудувати лінійну систему і помістити поліном на всі ці вимірювання. Але чи можу я те ж саме зробити зі сплайнами? Який "R" спосіб зробити це? …

2
Похідне Гауссового процесу
Я вважаю, що похідна Гауссового процесу (GP) - це інший GP, і тому я хотів би знати, чи є рівняння закритої форми для рівнянь прогнозування похідної GP? Зокрема, я використовую квадратичне експоненціальне ядро ​​коваріації (яке також називають гауссова) і хочу знати, як робити прогнози щодо похідної Гауссового процесу.

1
Апроксимація функції втрат другого порядку (Книга глибокого навчання, 7.33)
У книзі Goodfellow (2016) про глибоке навчання він розповів про еквівалентність ранньої зупинки до регуляризації L2 ( https://www.deeplearningbook.org/contents/regularization.html сторінка 247). Квадратичне наближення функції функції задається:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) де - матриця Гессія (рівняння 7.33). Чи не вистачає цього середнього терміну? Розширення Тейлора повинно бути: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

1
Інтерпретація похідної Радона-Нікодима між мірами ймовірності?
Я бачив в деяких моментах використання похідної Радона-Нікодима однієї міри ймовірності відносно іншої, особливо це стосується розбіжності Куллбека-Лейблера, де це похідна від міри ймовірності моделі для якогось довільного параметра щодо реального параметра :θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} Де ці обидві міри ймовірності на просторі точок даних, що залежать від значення параметра: .Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) …

3
Чи може нейронна мережа засвоїти функціонал та його функціональну похідну?
Я розумію, що нейронні мережі (NN) можна вважати універсальними наближеннями як до функцій, так і до їх похідних, за певних припущень (як для мережі, так і для функції наближення). Насправді я зробив ряд тестів на простих, але нетривіальних функціях (наприклад, поліномах), і, схоже, я можу дійсно добре наблизити їх та …

1
Що обґрунтовує цей обчислення похідної матричної функції?
У курсі машинного навчання Ендрю Нг він використовує цю формулу: ∇Аt r ( A B AТС) = СA B + CТА БТ∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T і він робить швидкий доказ, який показано нижче: ∇Аt r ( A B AТС)= ∇Аt r ( f( А ) АТС)= ∇∘t r …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.