Як походить функція витрат з логістичної регресії

29

Я роблю курс машинного навчання Стенфорда на Coursera.

У главі з логістичної регресії функція витрат така:

Потім, це похідне тут:

Я намагався отримати похідну від функції витрат, але отримав щось зовсім інше.

Як отримується похідна?

Які є посередницькими кроками?

— октавіан
джерело

+1, перевірте відповідь @ AdamO на моє запитання тут. stats.stackexchange.com/questions/229014/…

— Хайтао Ду

"Зовсім іншого" насправді недостатньо, щоб відповісти на ваше запитання, крім того, щоб сказати вам те, що ви вже знаєте (правильний градієнт). Було б набагато корисніше, якби ви дали нам те, до чого призвели ваші розрахунки, тоді ми можемо допомогти вам опинитися там, де ви допустили помилку.

— Метью Друрі

@MatthewDrury Вибачте, Метт, я домовився про відповідь перед тим, як увійшов ваш коментар. Я редагую, щоб пізніше надати їй додаткову цінність ...

— Антоні Пареллада

2

коли ви говорите "похідне", ви маєте на увазі "диференційований" чи "похідний"?

— Glen_b -Встановіть Моніку

41

Адаптовано з конспектів курсу, які я не бачу доступними (включаючи це виведення) за межами конспектів, внесених студентами на сторінці курсу «Курсове машинне навчання Ендрю Нґ» Ендрю Нґ .

У подальшому, суперскрипт позначає індивідуальні вимірювання або навчальні "приклади". $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

Похідна від сигмоїдної функції є

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— Антоні Пареллада
джерело

1

+1 за всіх зусиль !, використання позначення матриці може бути простіше?

— Хайтао Ду

чи можна сказати в лінійній регресії, мета - а похідна - , де , в логістичній регресії вона подібна, похідна де , і ?

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— Хайтао Ду

2

тому я ціную ваші зусилля. Ви витрачаєте час на мову ОП !!

— Хайтао Ду

1

Я розумію, що є проблеми опуклості, які роблять мінімізацію помилок у квадраті небажаною для нелінійних функцій активації. У матричній нотації це буде .

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— Антоні Пареллада

1

@MohammedNoureldin Я просто взяв часткову похідну в числівниках попереднього рядка, застосовуючи правило ланцюга.

— Антоні Парелада

8

Щоб уникнути враження надмірної складності справи, давайте просто побачимо структуру рішення.

Зі спрощенням і деяким зловживанням позначенням, нехай є терміном у сумі , а є функцією : $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

Ми можемо використовувати правило ланцюга: і вирішити його по одному одна ( і - константи). $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ Для sigmoid виконується, що є лише знаменником попереднього твердження.

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

Нарешті, . $\frac{d z}{d \theta} = x$

Об'єднання результатів все разом дає шуканий вираз: Надія, яка допомагає.

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— garej
джерело

0

Заслуга цієї відповіді належить Антоні Парелладі з коментарів, які, на мою думку, заслуговують на більш помітне місце на цій сторінці (як це допомагало мені, коли багато інших відповідей не мали). Крім того, це не повна деривація, а більше чітке твердження . (Для повного виведення див. Інші відповіді). $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

де

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

Також реалізація Python для тих, хто хоче обчислити градієнт відносно . $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— CiaranWelsh
джерело

0

Для тих із нас, хто не настільки сильний в обчисленні, але хотів би пограти з коригуванням функції витрат і потрібно знайти спосіб розрахунку похідних ... короткий шлях до повторного вивчення числення - це онлайн-інструмент для автоматичного надання виведення, з покроковими поясненнями правила.

https://www.derivative-calculator.net

— Yaoshiang
джерело