Чому ми повинні використовувати t помилки замість звичайних помилок?


30

У цій публікації в блозі Ендрю Гелмана є такий пасаж:

Моделі Байєса 50 років тому здаються безнадійно простими (за винятком, звичайно, простих проблем), і я думаю, що байєсівські моделі сьогодні будуть здаватися безнадійно простими, 50 років тому. (Просто для простого прикладу: ми, мабуть, повинні регулярно використовувати t, а не звичайні помилки майже будь-де, але ми цього ще не робимо, з-за звичності, звички та математичної зручності. Це можуть бути вагомі причини - в науці як в політиці консерватизм має багато хороших аргументів на свою користь - але я думаю, що в кінцевому рахунку, коли нам стане комфортніше із складнішими моделями, ми рухатимемось у цьому напрямку.)

Чому ми повинні «регулярно використовувати t, а не звичайні помилки майже всюди»?

Відповіді:


40

Тому що припускати звичайні помилки фактично те саме, що припускати, що великих помилок не відбувається! Нормальний розподіл має настільки легкі хвости, що помилки поза стандартних відхилень мають дуже низьку ймовірність, помилки поза ± 6 стандартних відхилень фактично неможливі. На практиці це припущення рідко відповідає дійсності. Аналізуючи невеликі, охайні набори даних із добре розроблених експериментів, це може не мати великого значення, якщо ми зробимо хороший аналіз залишків. З меншою якістю даних це може мати значення набагато більше.±3±6

При використанні методів, заснованих на вірогідності (або байєсів), ефект від цієї норми (як сказано вище, фактично це припущення "без великих помилок" - це зробити висновок дуже малим надійним). На результати аналізу надто сильно впливають великі помилки! Це повинно бути так, оскільки припускаючи, що "немає великих помилок", змушує наші методи інтерпретувати великі помилки як невеликі помилки, і це може статися лише шляхом переміщення параметра середнього значення, щоб зменшити всі помилки. Одним із способів уникнути цього є використання так званих "надійних методів", див. Http://web.archive.org/web/20160611192739/http://www.stats.ox.ac.uk/pub/StatMeth/Robust .pdf

Але Ендрю Гельман не піде на це, оскільки надійні методи зазвичай представлені вкрай не байєсівським способом. Використання t-розподілених помилок у вірогідних / байєсівських моделях - це інший спосіб отримання надійних методів, оскільки розподіл має більш важкі хвости, ніж звичайні, тому дозволяє отримати більшу частку великих помилок. Кількість градусів параметра свободи слід заздалегідь фіксувати, а не оцінювати за даними, оскільки така оцінка знищить властивості стійкості методу (*) (це також дуже складна проблема, функція ймовірності для ν , числа ступенів свободи, можуть бути необмеженими, що призводить до дуже неефективних (навіть непослідовних) оцінок).тν

Якщо, наприклад, ви думаєте (боїтесь), що цілий 1 з десяти спостережень може бути "великими помилками" (вище 3 сд), ви можете використовувати -розподіл з 2 ступенями свободи, збільшуючи це число, якщо частка великих помилок вважається меншою.т

ттттт

(*) Одне посилання на це свідчить про МАСУ Venables & Ripley --- Сучасна прикладна статистика з S (на стор. 110 у 4-му виданні).


3
νν2тνν>2

2
Чудова відповідь та коментар. Але: 1. Гельман захищає стандартну процедуру, яка буде кращою, ніж допускати Звичайні помилки. Отже, нам слід порівняти прості (Звичайні помилки) з розподілом Т за помилками. 2. У пов'язаному питанні, пов’язаному з користувачем603, слід зазначити, що якщо qe має попередню інформацію, ми повинні її використовувати. Бейс перевершує попередню інформацію. І в прикладі у нас є попередня інформація, яка не використовується. 3. Задніми передбачувальними чеками ми d know that the model proposed isnнедостатньо хороші.
Маноел Галдіно

1
т1

1
Ні, t-розподіл є єдиним вибором, тому що t-розподіл - це заднє передбачення Гауссової моделі. Гельман не просто вибирав т-розподіл навмання.
Ніл G

1
Див.: Мерфі, Кевін П. "Кон'югатний байєсівський аналіз розподілу Гаусса". def 1.2σ2 (2007): 16. Він отримує t-розподіл як задній прогноз гауссової моделі. Це не просто випадок, коли модельєр вибирає довільну розподілу з великими хвостами.
Ніл G

10

Справа не лише в «важчих хвостах» - є безліч розподілів, які мають дзвіночку і мають важкі хвости.

Розподіл T - це заднє передбачення моделі Гаусса. Якщо ви зробите припущення Гаусса, але маєте кінцеві докази, то отримана модель обов'язково робить нецентральні масштабні t-розподілені прогнози. З точки зору обмеження, оскільки кількість наявних у вас доказів переходить до нескінченності, ви закінчуєте прогнози Гаусса, оскільки межа розподілу t є гауссовою.

Чому це відбувається? Тому що з обмеженою кількістю доказів існує невизначеність параметрів вашої моделі. У випадку гауссової моделі невизначеність в середньому просто збільшила б дисперсію (тобто, заднє передбачення гаусса з відомою дисперсією все ще є гауссовим). Але невизначеність щодо дисперсії - це те, що викликає важкі хвости. Якщо модель підготовлена ​​з необмеженими доказами, то більше не існує невизначеності в дисперсії (або середньому), і ви можете використовувати свою модель для прогнозування Гаусса.

Цей аргумент стосується Гауссової моделі. Він також застосовується до параметру, який визначається, чия ймовірність гауссова. З урахуванням кінцевих даних, невизначеність щодо параметра розподілена t. Де б не було нормальних припущень (з невідомим середнім значенням та дисперсією) та кінцевих даних, існують t-розподілені задні прогнози.

Існують аналогічні задні прогнозні розподіли для всіх байєсівських моделей. Гельман пропонує нам використовувати їх. Його стурбованість може бути пом’якшена достатніми доказами.


Чи можете ви створити резервну копію цього запиту?
kjetil b halvorsen

2
@kjetilbhalvorsen: Мерфі, Кевін П. "Кон'югатний байєсовський аналіз розподілу Гаусса". def 1.2σ2 (2007): 16.
Neil G

Цікава перспектива, я ніколи цього не чув. Так чи t-розподілені помилки також призводять до t-розподілених прогнозів? Це для мене це аргумент на користь продовження використання помилок Гаусса. Якщо ви не очікуєте умовних викидів, умовна модель помилок не потрібно , щоб для них. Це відповідає припущенню, що вся відмінність походить від зовнішніх значень предикторів. Я не думаю, що припущення є таким поганим у багатьох випадках. І з суто естетичних ознак я не бачу, чому повинні відповідати умовні та граничні розподіли
shadowtalker

@ssdecontrol "Чи t-розподілені помилки також призводять до t-розподілених прогнозів?" Я не знаю, але не думаю. Для мене цей погляд дуже корисний для інтуїтивного розуміння того, чому працює t-тест.
Ніл G
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.