Що розуміється під дисперсією * функцій * в * Вступ до статистичного навчання *?

На пг. 34 Введення в статистичне навчання : $\newcommand{\Var}{{\rm Var}}$

Хоча математичне доказ виходить за рамки даної книги, можна показати , що очікуваний тест MSE для заданого значення , завжди можна розкласти на суму три основних величин: дисперсія в , квадрат зміщення з і дисперсія членів помилки . Це є, $x_0$ $\hat{f}(x_0)$ $\hat{f}(x_0)$ $\varepsilon$

$E {(y_{0} - \hat{f} (x_{0}))}^{2} = V a r (\hat{f} (x_{0})) + [B i a s (\hat{f} (x_{0}))]^{2} + V a r (ε)$ $E\left(y_0 - \hat{f}(x_0)\right)^2 = \Var\big(\hat{f}(x_0)\big) + \Big[{\rm Bias}\big(\hat{f}(x_0)\big)\Big]^2 + \Var(\varepsilon)$
[...] Варіант стосується суми, на яку змінився б, якщо ми оцінили його за допомогою іншого набору даних про навчання. $\hat{f}$

Питання: Оскільки $\Var\big(\hat{f}(x_0)\big)$ начебто позначає дисперсію функцій , що це означає формально?

Тобто мені знайоме поняття дисперсії випадкової величини $X$ , а як щодо дисперсії набору функцій? Чи можна вважати це лише дисперсією іншої випадкової величини, значення якої мають форму функцій?

machine-learning variance

— Джордж
джерело

Зважаючи на те, що кожного разу, коли з'являється у формулі, він застосовувався до "заданого значення" , відхилення застосовується до числа , а не до самого . Оскільки це число, імовірно, було розроблено з даних, що моделюються за випадковими змінними, це також (випадкова величина) випадкова величина. Застосовується звичайна концепція дисперсії.

\hat{f}

$\hat f$

x_{0}

$x_0$

\hat{f} (x_{0})

$\hat{f}(x_0)$

\hat{f}

$\hat{f}$

— whuber

Розумію. Отже змінюється (змінюється в різних наборах даних про тренування), але ми все ще дивимось на дисперсію самого .

\hat{f}

$\hat{f}$

\hat{f} (x_{0})

$\hat{f}(x_0)$

— Джордж

Хто автор цього підручника? Я хотів вивчити цю тему сам і дуже вдячний за вашу рекомендаційну рекомендацію.

— Chill2Macht

@WilliamKrinsman Це книга: www-bcf.usc.edu/~gareth/ISL

— Метью Друрі

Відповіді:

Ваша кореспонденція з @whuber правильна.

Алгоритм навчання можна розглядати як функцію вищого рівня, відображаючи навчальні набори до функцій. $\mathcal{A}$

A : T \to {f ∣ f : X \to R}

$\mathcal{A} : \mathcal{T} \rightarrow \{f \mid f: X \rightarrow \mathbb{R} \}$

де - простір можливих навчальних наборів. Це концептуально може бути трохи волохатим, але в основному кожен окремий навчальний набір дає результати, використовуючи алгоритм тренувальної моделі, у спеціальній функції яка може бути використана для прогнозування даних точки . $\mathcal{T}$ $f$ $x$

Якщо ми розглянемо простір навчальних наборів як простір ймовірностей, так що існує деякий розподіл можливих наборів даних тренінгу, то модельний алгоритм тренінгу стає функцією, що оцінюється випадковою змінною, і ми можемо думати про статистичні поняття. Зокрема, якщо ми зафіксуємо конкретну точку даних , то отримаємо числову оцінену випадкову змінну $x_0$

A_{x_{0}} (T) = A (T) (x_{0})

$\mathcal{A}_{x_0}(T) = \mathcal{A}(T)(x_0)$

Тобто спочатку тренуйте алгоритм на , а потім оцінюйте отриману модель на . Це просто звичайна стара, але досить геніально побудована випадкова величина на ймовірнісному просторі, тому ми можемо говорити про її відмінність. Це відхилення у вашій формулі від ISL. $T$ $x_0$

— Метью Друрі
джерело

Візуальна інтерпретація з використанням повторних складок

Щоб дати наочну / інтуїтивну інтерпретацію відповіді @Matthew Drury, розгляньте наступний іграшковий приклад.

Дані генеруються із кривої синусоїди: "Справжній шум" $f(x) \ +$
Дані розділені між зразками для навчання та тестування (75% - 25%)
Лінійна (поліноміальна) модель підходить до навчальних даних: $\hat f(x)$
Процес повторюється багато разів з використанням одних і тих самих даних (тобто тренування розбиття - тестування випадковим чином за допомогою повторного kkleold Sklearm)
Це створює багато різних моделей, з яких ми обчислюємо середнє значення та дисперсію у кожній точці , а також над усіма точками. $x=x_i$

Нижче див. Отримані графіки для поліноміальної моделі ступеня 2 та ступеня 6. На перший погляд здається, що вищий поліном (червоним кольором) має більшу дисперсію.

Стверджуючи, що червоний графік має більшу дисперсію - експериментально

Нехай і відповідають зеленому та червоному графікам відповідно, а - один екземпляр графіків, світло-зеленого та світло-червоного. Нехай - кількість точок вздовж осі - кількість графіків (тобто кількість моделювання). Тут маємо і $\hat f_g$ $\hat f_r$ $\hat f^{(i)}$ $n$ $x$ $m$ $n = 400$ $m = 200$

Я бачу три основні сценарії

Дисперсія прогнозованих значень в одній конкретній точці більша, тобто $x = x_0$ $Var \ \left[ \{\hat f^{(1)}_r(x_0), ..., \hat f^{(m)}_r(x_0)\} \right] > Var \ \left[ \{\hat f^{(1)}_g(x_0),...,\hat f^{(i)}_g(x_0)\} \right]$
Різниця в більша для всіх точок в діапазоні $(1)$ $\{ x_1,...,x_{400} \}$ $(0,1)$
Дисперсія в середньому більша (тобто може бути меншою для деяких точок)

У випадку з цим прикладом іграшки всі три сценарії відповідають дійсності за діапазон що виправдовує аргумент того, що поліном вищого порядку (червоний колір) має більшу дисперсію, ніж поліном нижчого порядку (зеленим). $(0,1)$

Відкритий висновок

Про що слід заперечувати, коли вищезазначені три сценарії не всі дотримуються. Наприклад, що робити, якщо дисперсія червоних прогнозів у середньому більша, але не для всіх точок.

Деталі етикеток

Розглянемо точку $x_0 = 0.5$

Рядок помилок - це діапазон між хв і макс $\hat f(x_0)$
Дисперсія обчислюється при $x_0$
Істинним є пунктирна синя лінія $f(x)$

— Xavier Bourret Sicotte
джерело

Мені подобається ця ідея ілюстрації концепції за допомогою малюнків. Мені цікаво два аспекти вашої публікації, і сподіваюся, що ви зможете вирішити їх. По-перше, ви могли б більш чітко пояснити, як ці сюжети показують "дисперсію функції"? По-друге, зовсім не ясно, що червоний сюжет виявляє "більшу дисперсію" або навіть те, що два сюжети піддаються такому спрощеному порівнянню. Розглянемо, наприклад, вертикальне поширення червоних значень вище і порівняйте його з поширенням зелених значень у тій же точці: червоні виглядають трохи менше, ніж зелені.

x = 0.95,

$x=0.95,$

— whuber

Моя думка не в тому, чи можна читати ваші сюжети з високою точністю: це сенс порівняння двох таких сюжетів, як якщо б один міг вважатися дисперсією "вищої" або "нижчої", ніж інший, сумнівний, враховуючи можливість, що для для деяких діапазонів дисперсії прогнозів будуть вищими для однієї графіки, а для інших діапазонів дисперсії будуть нижчими.

x

$x$

x

$x$

— whuber

Так, я згоден - я відредагував пост, щоб відобразити ваші коментарі

— Xavier Bourret Sicotte