Що розуміється під дисперсією * функцій * в * Вступ до статистичного навчання *?


11

На пг. 34 Введення в статистичне навчання :

Хоча математичне доказ виходить за рамки даної книги, можна показати , що очікуваний тест MSE для заданого значення , завжди можна розкласти на суму три основних величин: дисперсія в , квадрат зміщення з і дисперсія членів помилки . Це є,x0f^(x0)εf^(x0)ε

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] Варіант стосується суми, на яку змінився б, якщо ми оцінили його за допомогою іншого набору даних про навчання.f^

Питання: Оскільки Var(f^(x0)) начебто позначає дисперсію функцій , що це означає формально?

Тобто мені знайоме поняття дисперсії випадкової величини X , а як щодо дисперсії набору функцій? Чи можна вважати це лише дисперсією іншої випадкової величини, значення якої мають форму функцій?


6
Зважаючи на те, що кожного разу, коли з'являється у формулі, він застосовувався до "заданого значення" , відхилення застосовується до числа , а не до самого . Оскільки це число, імовірно, було розроблено з даних, що моделюються за випадковими змінними, це також (випадкова величина) випадкова величина. Застосовується звичайна концепція дисперсії. х0 е (х0) еf^x0 f^(x0)f^
whuber

2
Розумію. Отже змінюється (змінюється в різних наборах даних про тренування), але ми все ще дивимось на дисперсію самого . е (х0)f^f^(x0)
Джордж

Хто автор цього підручника? Я хотів вивчити цю тему сам і дуже вдячний за вашу рекомендаційну рекомендацію.
Chill2Macht

3
@WilliamKrinsman Це книга: www-bcf.usc.edu/~gareth/ISL
Метью Друрі

Відповіді:


13

Ваша кореспонденція з @whuber правильна.

Алгоритм навчання можна розглядати як функцію вищого рівня, відображаючи навчальні набори до функцій.A

A:T{ff:XR}

де - простір можливих навчальних наборів. Це концептуально може бути трохи волохатим, але в основному кожен окремий навчальний набір дає результати, використовуючи алгоритм тренувальної моделі, у спеціальній функції яка може бути використана для прогнозування даних точки . f xTfx

Якщо ми розглянемо простір навчальних наборів як простір ймовірностей, так що існує деякий розподіл можливих наборів даних тренінгу, то модельний алгоритм тренінгу стає функцією, що оцінюється випадковою змінною, і ми можемо думати про статистичні поняття. Зокрема, якщо ми зафіксуємо конкретну точку даних , то отримаємо числову оцінену випадкову зміннуx0

Ax0(T)=A(T)(x0)

Тобто спочатку тренуйте алгоритм на , а потім оцінюйте отриману модель на . Це просто звичайна стара, але досить геніально побудована випадкова величина на ймовірнісному просторі, тому ми можемо говорити про її відмінність. Це відхилення у вашій формулі від ISL.x 0Tx0


5

Візуальна інтерпретація з використанням повторних складок

Щоб дати наочну / інтуїтивну інтерпретацію відповіді @Matthew Drury, розгляньте наступний іграшковий приклад.

  • Дані генеруються із кривої синусоїди: "Справжній шум"f(x) +
  • Дані розділені між зразками для навчання та тестування (75% - 25%)
  • Лінійна (поліноміальна) модель підходить до навчальних даних:f^(x)
  • Процес повторюється багато разів з використанням одних і тих самих даних (тобто тренування розбиття - тестування випадковим чином за допомогою повторного kkleold Sklearm)
  • Це створює багато різних моделей, з яких ми обчислюємо середнє значення та дисперсію у кожній точці , а також над усіма точками.x=xi

Нижче див. Отримані графіки для поліноміальної моделі ступеня 2 та ступеня 6. На перший погляд здається, що вищий поліном (червоним кольором) має більшу дисперсію.

введіть тут опис зображення

Стверджуючи, що червоний графік має більшу дисперсію - експериментально

Нехай і відповідають зеленому та червоному графікам відповідно, а - один екземпляр графіків, світло-зеленого та світло-червоного. Нехай - кількість точок вздовж осі - кількість графіків (тобто кількість моделювання). Тут маємо і е р е (я)пхтп=400м=200f^gf^rf^(i)nxmn=400m=200

Я бачу три основні сценарії

  1. Дисперсія прогнозованих значень в одній конкретній точці більша, тобтоx=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. Різниця в більша для всіх точок в діапазоні { х 1 , . . . , x 400 } ( 0 , 1 )(1) {x1,...,x400}(0,1)
  3. Дисперсія в середньому більша (тобто може бути меншою для деяких точок)

У випадку з цим прикладом іграшки всі три сценарії відповідають дійсності за діапазон що виправдовує аргумент того, що поліном вищого порядку (червоний колір) має більшу дисперсію, ніж поліном нижчого порядку (зеленим).(0,1)

Відкритий висновок

Про що слід заперечувати, коли вищезазначені три сценарії не всі дотримуються. Наприклад, що робити, якщо дисперсія червоних прогнозів у середньому більша, але не для всіх точок.

Деталі етикеток

Розглянемо точкуx0=0.5

  • Рядок помилок - це діапазон між хв і максf^(x0)
  • Дисперсія обчислюється приx0
  • Істинним є пунктирна синя лініяf(x)

Мені подобається ця ідея ілюстрації концепції за допомогою малюнків. Мені цікаво два аспекти вашої публікації, і сподіваюся, що ви зможете вирішити їх. По-перше, ви могли б більш чітко пояснити, як ці сюжети показують "дисперсію функції"? По-друге, зовсім не ясно, що червоний сюжет виявляє "більшу дисперсію" або навіть те, що два сюжети піддаються такому спрощеному порівнянню. Розглянемо, наприклад, вертикальне поширення червоних значень вище і порівняйте його з поширенням зелених значень у тій же точці: червоні виглядають трохи менше, ніж зелені. x=0.95,
whuber

Моя думка не в тому, чи можна читати ваші сюжети з високою точністю: це сенс порівняння двох таких сюжетів, як якщо б один міг вважатися дисперсією "вищої" або "нижчої", ніж інший, сумнівний, враховуючи можливість, що для для деяких діапазонів дисперсії прогнозів будуть вищими для однієї графіки, а для інших діапазонів дисперсії будуть нижчими. хxx
whuber

Так, я згоден - я відредагував пост, щоб відобразити ваші коментарі
Xavier Bourret Sicotte
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.