Чому стандартна помилка перехоплення ще більше збільшується від 0?


13

Стандартна помилка терміна перехоплення ( ) у задається , де є середнє значення 's.у=β1х+β0+εSЕ( β 0)2=σ2[1β^0y=β1x+β0+εˉxxi

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

Як я розумію, SE визначає вашу невизначеність - наприклад, у 95% зразків інтервал міститиме справжній . Я не розумію, як SE, міра невизначеності, збільшується за допомогою . Якщо я просто зміщу свої дані, щоб , моя невизначеність знижується? Це здається нерозумним.β 0 ˉ х ˉ х = 0[β^02SE,β^0+2SE]β0x¯x¯=0

Аналогічна інтерпретація - у безцентризованій версії моїх даних відповідає моєму прогнозуванню при , тоді як у центрованих даних відповідає моєму прогнозуванню при . То чи означає це тоді, що моя невизначеність щодо мого передбачення при більша, ніж моя невизначеність щодо мого передбачення на ? Це теж здається нерозумним, помилка має однакову дисперсію для всіх значень , тому моя невизначеність у моїх прогнозованих значеннях повинна бути однаковою для всіх .х=0 β 0х= ˉ х х=0х= ˉ х εххβ^0x=0β^0x=x¯x=0x=x¯ϵxx

У моєму розумінні є прогалини, я впевнений. Може хтось допоможе мені зрозуміти, що відбувається?


3
Ви коли-небудь регресували проти побачення? Багато комп'ютерні системи починають свої дати в далекому минулому, часто понад 100 чи більше 2000 років тому. Перехоплення оцінює значення ваших даних, екстрапольованих назад до цього часу початку. Наскільки ви впевнені, скажімо, валовий внутрішній продукт Іраку в 0 році нашої ери на основі регресу низки даних 21 століття?
whuber

Я згоден, це має сенс, якщо ви думаєте про це таким чином. Це та відповідь Гунґа дають зрозуміти.
elexhobby

2
Ця відповідь дає інтуїтивне пояснення із діаграмами) як вона виникає, переводячи приталену лінію з точки зору придатності на середнє значення ( придатна лінія проходить через ) і показує, чому положення, куди може йти лінія, поширюється, коли ви відходите від (що викликано невизначеністю у схилі). ( ˉ x , ˉ y ) ˉ xx¯(x¯,y¯)x¯
Glen_b -Встановіть Моніку

Відповіді:


16

Оскільки лінія регресії, що відповідає звичайним найменшим квадратам, обов'язково пройде через середнє значення ваших даних (тобто ) - принаймні до тих пір, поки ви не придушите перехоплення - невизначеність щодо справжнього значення нахилу не впливає на вертикальне положення лінії при середньому значенні (тобто при ). Це перетворюється на менш вертикальну невизначеність на ніж у вас далі, ніж ви знаходитесь. Якщо перехоплення, де є , то це мінімуму вашу невизначеність щодо справжнього значення(x¯,y¯)xy^x¯x¯x¯x=0x¯β0. У математичному плані це означає найменше можливе значення стандартної помилки для . β^0

Ось короткий приклад у R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

введіть тут опис зображення

Ця цифра трохи зайнята, але ви можете побачити дані кількох різних досліджень, де розподіл було ближче чи далі від . Схили трохи відрізняються від вивчення до вивчення, але значною мірою схожі. (Зауважте, всі вони проходять через обведений X, який я використовував для позначення .) Тим не менш, невизначеність щодо справжнього значення цих схилів викликає невизначеність щодо розширитись далі, від чого ви отримаєте , що означає, що дуже широкий для даних, відібраних у сусідні області , і дуже вузький для дослідження, в якому дані були відібрані у вибірці поблизу . x0(x¯,y¯)y^x¯SE(β^0)x=10x=0


Редагувати у відповідь на коментар: На жаль, центрування дані після того, як ви їх не допоможе вам , якщо ви хочете знати , ймовірно значення при деякому значення . Натомість вам потрібно зосереджувати свою колекцію даних у першу чергу на точці, яка вас хвилює. Щоб зрозуміти ці питання більш повно, можливо, вам допоможе прочитати мою відповідь тут: Інтервал лінійного прогнозування регресії . yxxnew


Отже, дозвольмо сказати, чомусь мене найбільше цікавить прогнозування значення . Наведене вище пояснення означає, що я не повинен зосереджувати свої дані (тобто зсув так, що ), а замість цього переміщувати так, що . Це правильно? x=xxx¯=0x¯=x
elexhobby

Загальна формула має в чисельнику замість : зміщення не потрібно. (xx¯)2x¯2
whuber

@elexhobby, я додав трохи інформації, щоб відповісти на ваш коментар, можливо, ви також хочете переглянути пов'язаний матеріал. Дайте мені знати, якщо вам все-таки потрібно більше.
gung - Відновіть Моніку

Ось як я розумію - я читав в іншому місці, що . Тепер похибка передбачуваного значення при через цю невизначеність у схилі дорівнює . Крім того, похибка через невизначеність у вертикальному положенні лінії є . Об’єднайте їх разом, і ми отримаємо невизначеність у передбачуваному значенні через невизначеність у і є . Виправте мене, якщо я помиляюся. SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2β 1 β 0σ2σ2nβ^1β^0σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby

1
Крім того, зрозуміло, чому помилка у вертикальному положенні дорівнює - ми знаємо, що лінія повинна проходити через у . Тепер містить середнє значення помилок iid, а значить, SE буде дорівнює . Оце Так! Дуже дякую за вашу діаграму та чітке пояснення, я дуже вдячний. ˉ y x= ˉ x ˉ y nσ2σ2ny¯x=x¯y¯nσ2n
elexhobby
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.