Функція витрат у лінійній регресії OLS

32

Я трохи плутаю лекцію про лінійну регресію, яку виголосив Ендрю Нґ на Coursera про машинне навчання. Там він дав функцію витрат, яка мінімізує суму квадратів:

\frac{1}{2 м} \sum_{i = 1}^{м} {({год}_{θ} (Х^{(i)}) - Y^{(i)})}^{2}

$\frac{1}{2m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2$

Я розумію, звідки походить . Я думаю, що він зробив це так, що коли він виконав похідну на квадратному терміні, 2 у квадратному терміні скасуються з половиною. Але я не розумію, звідки походить . $\frac{1}{2}$ $\frac{1}{m}$

Чому нам потрібно робити ? У стандартній лінійній регресії у нас її немає, ми просто мінімізуємо залишки. Навіщо нам це потрібно тут? $\frac{1}{m}$

regression machine-learning loss-functions

— Маленькі шахи
джерело

1 / 2м допомагає знайти середню помилку за точкою даних, а m представляє загальну кількість спостережень або кількість спостережень.

— Арірі Крішнан

33

Як вам здається, ми розуміємо, що для лінійної регресії нам точно не потрібен коефіцієнт . Звісно, мінімізатори будуть точно однакові, з ним або без нього. Одна з типових причин нормалізації за допомогою полягає в тому, що ми можемо розглядати функцію витрат як наближення до "помилки узагальнення", яка є очікуваною квадратною втратою на випадково обраному новому прикладі (не в навчальному наборі): $1/m$ $m$

Припустимо, відібрані в пробі з деякого розподілу. Тоді для великих ми очікуємо, що $(X,Y),(X^{(1)},Y^{(1)}),\ldots,(X^{(m)},Y^{(m)})$ $m$

\frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} \approx E {(h_{θ} (X) - Y)}^{2} .

$\frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 \approx \mathbb{E}\left(h_\theta(X)-Y\right)^2.$

Точніше, за сильним законом великих чисел у нас є з вірогідністю 1.

lim_{m \to \infty} \frac{1}{m} \sum_{i = 1}^{m} {(h_{θ} (X^{(i)}) - Y^{(i)})}^{2} = E {(h_{θ} (X) - Y)}^{2}

$\lim_{m\to\infty} \frac{1}{m} \sum _{i=1}^m \left(h_\theta(X^{(i)})-Y^{(i)}\right)^2 = \mathbb{E}\left(h_\theta(X)-Y\right)^2$

Примітка. Кожне з вищезазначених тверджень призначене для будь-якого конкретного , вибирається без перегляду навчального набору. Для машинного навчання, ми хочемо , щоб ці заяви для деяких & обраного на основі його хороша продуктивність на навчальному наборі. Ці твердження все ще можуть бути в цьому випадку, хоча нам потрібно зробити деякі припущення щодо набору функцій $\theta$ $\hat{\theta}$ , і нам знадобиться щось сильніше, ніж Закон великих чисел. $\{h_\theta \,|\, \theta \in \Theta\}$

— DavidR
джерело

1

@StudentT Це, мабуть, найкраща причина використання середньої помилки над загальною. Моє пояснення насправді є лише наслідком більш глибокої причини DavidR.

— Меттью Друрі

29

Вам не доведеться . Функція втрат має той самий мінімум, якщо ви включаєте або придушити його. Якщо ви включите його, ви отримаєте приємну інтерпретацію мінімізації (половини)середньоїпомилки на точку даних. Іншими словами, ви мінімізуючи помилкишвидкостізамість сумарної похибки. $\frac{1}{m}$

Розглянемо порівняння продуктивності для двох наборів даних різної величини. Невизначена сума помилок у квадраті не є безпосередньо порівнянною, оскільки більші набори даних мають тенденцію до більш повної помилки саме через їх розмір. З іншого боку, середня помилка на кожну точку даних є .

Ви можете трохи допрацювати?

Звичайно. Ваш набір даних - це набір точок даних . Після того, як у вас є модель , помилка найменших квадратів в одній точці даних є $\{ x_i, y_i \}$ $h$ $h$

(год (х_{i}) - у_{i})^{2}

$(h(x_i) - y_i)^2$

це, звичайно, різне для кожної точки даних. Тепер, якщо ми просто підсумуємо помилки (і помножимо на одну половину з причини, яку ви описали), ми отримаємо загальну помилку

\frac{1}{2} \sum_{i} (год (х_{i}) - у_{i})^{2}

$\frac{1}{2} \sum_i (h(x_i) - y_i)^2$

але якщо ділити на кількість сум, отримаємо середню помилку на точку даних

\frac{1}{2 м} \sum_{i} (год (х_{i}) - у_{i})^{2}

$\frac{1}{2m} \sum_i (h(x_i) - y_i)^2$

Перевага середньої помилки в тому , що якщо у нас є два набору даних і з differeing розмірів , то ми можемо порівняти середні помилки , але не загальна кількість помилок. Оскільки, якщо другий набір даних, скажімо, в десять разів перевищує перший, то ми очікуємо, що загальна помилка буде приблизно в десять разів більша для тієї ж моделі. З іншого боку, середня помилка розділяє ефект від розміру набору даних, і тому ми могли б очікувати, що моделі подібної продуктивності матимуть однакові середні помилки для різних наборів даних. $\{ x_i, y_i \}$ $\{ x'_i, y'_i \}$

— Метью Друрі
джерело

1

Я можу за тобою слідувати, ти можеш трішки розробити? Вибачте, я новачок у машинному навчанні!

— SmallChess

@StudentT Я спробував уточнити свою відповідь.

— Меттью Друрі

1

Це також стосується, якщо вам трапляється експериментувати з мініатюрним розміром під час стохастичного спуску градієнта, який є найпоширенішим типом лінійного градієнтного спуску при роботі з великими наборами даних: ви можете легше порівняти помилку.

— jasonszhao