Декомпозиція дисперсії зміщення: термін для очікуваної помилки прогнозу в квадраті за вирахуванням помилки


9

Хасті та ін. "Елементи статистичного навчання" (2009) розглядають процес формування даних

Y=f(X)+ε
з E(ε)=0 і Var(ε)=σε2.

Вони представляють наступне розмежування дисперсійної дисперсії очікуваної помилки прогнозу в квадраті в точці x0 (с. 223, формула 7.9):

Err(x0)=E([yf^(x0)]2|X=x0)==σε2+Bias2(f^(x0))+Var(f^(x0))=Irreducible error+Bias2+Variance.
У власній роботі я не вказую f^() але прийміть довільний прогноз y^натомість (якщо це актуально).
Питання: Я шукаю термін для
Bias2+Variance
або, точніше,
Err(x0)Irreducible error.

3
У чому тут питання?
Майкл Р. Черник

1
@sntx, дякую за ідею. Але це якось не звучить правильно. Можливо помилка моделювання (тобто помилка через неправильне визначення моделі та неточна оцінка моделі), але тоді це не має сенсу, якщо не існує моделі, що генерує прогноз (наприклад, прогнози експертів).
Річард Харді

1
@DeltaIV, це досить добре. Однак я думаю, що термін стягується; здається, ніби прогноз поганий, і ми могли б зробити краще. Але припустимо, що ми зробили все можливе для даних даних. Отже, ми вибрали правильну модель (немає "упередженості моделі"), але вибірка є занадто малою, щоб ідеально оцінити коефіцієнти. Таким чином, дисперсія оцінки ("дисперсія моделі") дійсно непридатна для даного розміру вибірки - тоді як термін "помилка, що зменшується" припускає, що це не так. Не те, що я впевнений, що ми можемо придумати кращий термін, я все одно хотів би до цього прагнути.
Річард Харді

1
@DeltaIV, гаразд, зараз я зрозумів, в чому сенс її можна привести. Але цей термін може ввести в оману, якщо використовувати його без додаткових пояснень (так, як ви мені повинні були пояснити). Ваша остання пропозиція є точною, що справді приємно, але так само, як ви сказали, вона доволі вивернута.
Річард Харді

1
@DeltaIV, я не збирався звучати так. Це ніщо особисте; мої (сподіваюсь переконливі) аргументи наведені вище в коментарях. Але дякую, що обговорили зі мною, це допомагає.
Річард Харді

Відповіді:


4

Я пропоную зменшити помилку . Це також термінологія, прийнята в пункті 2.1.1 Гарета, Віттена, Хасті і Тібшірані, «Вступ до статистичного навчання» , що в основному є спрощенням ESL + деяких дуже крутих лабораторій коду R (за винятком того, що вони використовують attach, але, ей, ніхто не ідеальний). Я перерахую нижче причини плюсів і мінусів цієї термінології.


Перш за все, ми повинні згадати, що ми не тільки припускаємо ϵмати значення 0, але також бути незалежним відX(див. параграф 2.6.1, формула 2.29 ESL, 2- е видання, 12- е друк). Тоді звичайноϵ не можна оцінити з Xнезалежно від того, який клас гіпотези H(сімейство моделей), яку ми обираємо, і наскільки великий зразок ми використовуємо для вивчення своєї гіпотези (оцінюємо нашу модель). Це пояснює, чомуσϵ2 називається непридатною помилкою .

За аналогією видається, що залишилася частина помилки, природно, Err(x0)σϵ2, помилка , що зменшується . Тепер ця термінологія може здатися дещо заплутаною: насправді, з припущення, яке ми зробили для процесу генерації даних, ми можемо довести, що

f(x)=E[Y|X=x]

Таким чином, помилка, що зменшується, може бути зведена до нуля, якщо і лише тоді E[Y|X=x]H(якщо, звичайно, у нас є послідовний оцінювач). ЯкщоE[Y|X=x]H, ми не можемо привести помилку, що приводиться до 0, навіть в межах нескінченного розміру вибірки. Однак це все-таки єдина частина нашої помилки, яку можна зменшити, якщо не усунути, змінивши розмір вибірки, ввівши регуляризацію (усадку) в наш оцінювач тощо. Іншими словами, вибираючи іншуf^(x) в нашій родині моделей.

В основному, зводиться мається на увазі не в сенсі нульових ( юк !), А в сенсі тієї частини помилки, яку можна зменшити, навіть якщо не обов'язково зробити довільно малою. Також зауважте, що в принципі цю помилку можна зменшити до 0 шляхом збільшенняH поки вона не включає E[Y|X=x]. У контрасті,σϵ2 не можна зменшити, незалежно від величини Н є, тому що ϵХ.


Якщо шум є невідмінною помилкою, він не є невідводимим. Вам потрібно якось мотивувати це, я не можу цього зробити для себе.
Карл

У 2.1.1 прикладом є "аналіз деякого препарату в крові". Перший приклад, який я наводжу нижче, - саме такий. У цьому аналізі так звана непридатна похибка вимірювання нічого подібного. Він складається з підрахунку шуму, який, як правило, зменшується за рахунок підрахунку 10000 і більше подій, помилки піпетування, яка майже експоненціально розподілена, та інших технічних помилок. Для подальшого зменшення цих "невідмінних" помилок я рекомендую використовувати медіану з трьох підрахункових трубок для кожного зразка часу. Термін непридатний - це поганий жаргон, спробуйте ще раз.
Карл

1
@Delta, дякую за відповідь. "Зменшувана помилка" одного вкладиша може бути не дуже переконливою, але, враховуючи контекст та обговорення, це виглядає досить добре!
Річард Харді

Я не думаю, що мета розробки жаргону - заплутати людей. Якщо ви хочете сказати помилку незалежно відн, проти помилки, яка є функцією н, скажи, що ти маєш на увазі.
Карл

@DeltaV Я вважаю, що скорочуваність є сумнівним припущенням, див. Нижче.
Карл

0

У системі, для якої всі фізичні події були правильно змодельовані, ліворуч буде шумом. Однак, як правило, в помилках моделі даних більше структури, ніж просто шум. Наприклад, моделювання зміщення та шуму поодинці не пояснює криволінійних залишків, тобто немодельовану структуру даних. Сукупність нез'ясованих фракцій становить1-R2, яка може полягати у хибному представленні фізики, а також упередженості та шуму відомої структури. Якщо під ухилом ми маємо на увазі лише помилку в оцінці середньогоуПід "невідмінною помилкою" ми маємо на увазі шум, а під різницею маємо на увазі системну фізичну помилку моделі, тоді сума зміщення (у квадраті) та системна фізична помилка не є особливим нічого, це просто помилка, яка не є шумом . Термін (квадрат) неправильної реєстрації може бути використаний для цього в конкретному контексті, див. Нижче. Якщо ви хочете сказати помилку незалежно відн, проти помилки, яка є функцією н, сказати, що. ІМХО, жодна помилка не зводиться, так що властивість невідводимості вводить в оману настільки, що вона плутає більше, ніж висвітлює.

Чому мені не подобається термін "скорочуваність"? Це відтіняє самореференційну тавтологію, як в Аксіомі приводимості . Я погоджуюся з Расселом 1919 р., Що "я не бачу жодних причин вважати, що аксіома приводимості є логічно необхідною, що було б означати, якщо сказати, що це правда у всіх можливих світах. Прийняття цієї аксіоми до системи Таким чином, логіка є дефектом ... сумнівним припущенням ".

Нижче наводиться приклад структурованих залишків через неповне фізичне моделювання. Це являє собою залишки від звичайних найменших квадратів, що відповідають масштабному гамма-розподілу, тобто гамма-змінному (GV), для зразків плазми крові радіоактивності ниркових клубочково-фільтрованих радіофармацевтичних препаратів [ 1 ]. Зауважте, що більше даних, які відкидаються (н=36 для кожного зразка часу), тим краще модель стає такою, що зменшуваність спростує з більшим діапазоном вибірки.

введіть тут опис зображення

Примітно, що коли випадає перший зразок за п’ять хвилин, фізика поліпшується, як це відбувається послідовно, оскільки один продовжує випускати ранні зразки до 60 хв. Це свідчить про те, що, хоча врешті-решт GV формує хорошу модель для концентрації препарату в плазмі, протягом раннього часу відбувається щось інше.

Дійсно, якщо один охоплює два гамма-розподіли, один для раннього часу, доставку препарату в кровообіг та один для кліренсу, цей тип помилок, помилка фізичного моделювання, може бути зменшений до менше 1%[ 2 ]. Далі - ілюстрація цієї згортки.

введіть тут опис зображення

З цього останнього прикладу для квадратного кореня рахується проти часового графіка, у-осі відхилення - це стандартизовані відхилення в розумінні помилки Пуассона. Такий графік - це зображення, для якого помилки придатності є неправильною реєстрацією зображення від спотворення або викривлення. У цьому контексті, і лише в цьому контексті, неправильна реєстрація - це упередження плюс помилка моделювання, а повна помилка - це неправильна реєстрація плюс помилка шуму.


Дійсно, саме в цьому полягає розклад вище. Але ваша відповідь краще послужить коментарем, оскільки вона не стосується фактичного питання. Або це?
Річард Харді,

Дякую, але відповідь просто відійшла від теми. Мені важко знайти будь-який зв’язок між фактичним питанням (як мені дзвонитиУпередження2+Варіантність) і все це ...
Річард Харді

Ще раз ви відповідаєте на інше запитання. Правильна відповідь на неправильне запитання, на жаль, є неправильною відповіддю (замітка до себе: випадково я вчора пояснював це своїм студентам). Я не запитую, наскільки значущим є цей вираз (він має значення для того, хто читав підручник ESL та / або працював у прикладному машинному навчанні), я прошу відповідний термін для цього. Питання позитивне, а не нормативне. І це досить просто і дуже конкретно.
Річард Харді

@RichardHardy Без фізики питання мені було важко зрозуміти. Я змінив свою відповідь, див. Неправильну реєстрацію вище.
Карл

1
Ви можете це зробити для оцінки процесу, так, і це частина помилки, що зменшується. Але коли ви прогнозуєте конкретну подію, яка включає перевернення монети, ви не зможете зменшити помилку, пов’язану з неправильним прогнозуванням результату перевертання монети. Ось у чому полягає непридатна помилка. Цікаво: у чисто детермінованому світі не було б невідмінних помилок за визначенням, тож якщо ваш погляд на світ є повністю детермінованим, то я можу зрозуміти, що ви маєте на увазі. Однак світ стохастичний у "Елементах статистичного навчання" та в статистиці взагалі.
Річард Харді,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.