Що інтуїтивно означає «упередженість»?


21

Я намагаюся зрозуміти концепцію упередженості в контексті лінійного регресійного аналізу.

  • Що таке математичне визначення зміщення?

  • Що саме є упередженим і чому / як?

  • Ілюстративний приклад?

Відповіді:


28

Зсув - це різниця між очікуваним значенням оцінювача і справжнім значенням, що оцінюється. Наприклад, середнє значення вибірки для простої випадкової вибірки (SRS) - це неупереджений оцінювач середньої сукупності, тому що якщо ви візьмете всі можливі знаки SRS, знайдете їхні засоби, і візьмете середнє значення цих засобів, тоді ви отримаєте середнє значення сукупності (для скінченного популяції це просто алгебра, щоб показати це). Але якщо ми використовуємо механізм вибірки, який так чи інакше пов'язаний зі значенням, то середня величина може стати необ’єктивною, подумайте про вибірковий набір набору випадкових цифр із запитанням про дохід.

Є також деякі оцінки, які є природними упередженими. Обрізана середня буде упереджена для косого населення / розподілу. Стандартна дисперсія є неупередженою для SRS, якщо або середнє значення сукупності використовується із знаменником або середнє значення вибірки використовується із знаменником . n - 1nn1

Ось простий приклад, використовуючи R, ми генеруємо купу зразків від норми із середнім значенням 0 та стандартним відхиленням 1, потім обчислюємо середнє середнє значення, дисперсію та стандартне відхилення від зразків. Зауважте, наскільки близькі середні та дисперсійні середні значення до справжніх значень (помилка вибірки означає, що вони не будуть точними), тепер порівняйте середнє значення sd, це упереджений оцінювач (хоча і не дуже упереджений).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

При регресії ми можемо отримати упереджені оцінки схилів, зробивши ступінчату регресію. Змінна, швидше за все, буде зберігатися в поступовій регресії, якщо розрахунковий нахил буде далі від 0 і більше шансів знизитися, якщо він ближче до 0, тому це необ'єктивна вибірка і схили в кінцевій моделі будуть, як правило, далі від 0, ніж справжній схил. Методи, такі як регресія зсуву ласо та хребта, нахиляються до 0, щоб протистояти відхиленням відбору від 0.


SRS?  
кардинал

@cardinal Простий випадковий зразок.
whuber

@whuber: Нічого собі Хоча абревіатура має сенс, я не пригадую, щоб я натрапив на неї в будь-яких формальних умовах. Чи є конкретні підполі чи прикладні області, де це "стандартний" ініціалізм?
кардинал


(+1) Редагування @ whuber була корисною для уточнення цієї відповіді.
кардинал

7

Зміщення означає, що очікуване значення оцінювача не дорівнює параметру сукупності.

Інтуїтивно зрозумілий в регресійному аналізі це означає, що оцінка одного з параметрів є занадто високою або занадто низькою. Однак звичайними регресійними оцінками найменших квадратів є ПІНІ, що означає найкращі лінійні неупереджені оцінки. В інших формах регресії оцінки параметрів можуть бути упередженими. Це може бути хорошою ідеєю, оскільки часто відбувається компроміс між ухилом і дисперсією. Наприклад, регресія хребта іноді використовується для зменшення дисперсії оцінок, коли існує колінеарність.

Простий приклад може ілюструвати це краще, хоча не в контексті регресії. Припустимо, ви важите 150 фунтів (перевірено за шкалою балансу, яка має вас в одній кошику, а купу ваг в іншій кошику). Тепер у вас є дві ваги для ванної кімнати. Ви зважуєте себе 5 разів на кожен.

Шкала 1 дає ваги 152, 151, 151,5, 150,5 і 152.

Шкала 2 дає ваги 145, 155, 154, 146 та 150.

Шкала 1 упереджена, але має меншу дисперсію; середня вага не є вашою справжньою вагою. Шкала 2 є неупередженою (в середньому 150), але має значно більшу дисперсію.

Яка шкала "краща"? Це залежить від того, що ви хочете робити на шкалі.


1
Хоча визначення упередженості є правильним, я боюся, що приклади плутають це з неточністю, яка зовсім інша! Зсув - властивість статистичної процедури (оцінювача), тоді як точність - властивість процесу вимірювання . (-1).
whuber

1
@whuber: Так, я згоден з цим. І я все ще вважаю, що, навіть незважаючи на це, необхідно чітко визначити різницю між математичним очікуванням та середнім зразком, оскільки вони стосуються зміщення.
кардинал

1
Ні, я не намагався сказати нічого про "неточність" (яку жахливо важко визначити), а про "дисперсію". Одна шкала неупереджена, інша шкала має низьку дисперсію. Я не вживав слова "точний" чи "точність". Шкала, яка, як правило, оцінює вагу занадто високу (або занадто низьку), є упередженою.
Пітер Флом - Відновити Моніку

1
Але це почуття «упередженості» - лише синонім неточного; це не те саме визначення, яке ви дали в першому рядку. Більше того, як зазначає @cardinal, приклад також змішує очікування із середнім значенням конкретного зразка.
whuber

3
Я згоден з @whuber тут. У (правильному) змісті упередженості, про яку питає ОП, це не масштаб, який є упередженим або неупередженим, а скоріше, будь-яка оцінка ваги, яку ви отримуєте з її вимірювань!
кардинал

0

У лінійному регресійному аналізі ухил посилається на помилку, яка вводиться шляхом наближення до реальної проблеми, яка може бути складною, значно простішою моделлю. Простіше кажучи, ви припускаєте просту лінійну модель, таку як y * = (a *) x + b *, де, як і в реальному житті, бізнес-проблема може бути y = ax ^ 3 + bx ^ 2 + c.

Можна сказати, що очікувана тестова MSE (середня квадратична помилка) від проблеми регресії може бути розкладена як нижче. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Зміщення (f * (x0))] ^ 2 + Var (e)

f * -> функціональна форма, прийнята для лінійної регресійної моделі y0 -> вихідне значення відповіді, записане в тестових даних x0 -> початкове значення предиктора, записане в тестових даних e -> непридатна помилка. Отже, метою є вибір найкращого способу отримання моделі, яка досягає низької дисперсії та низької ухилу.

Примітка. Вступ до статистичного навчання Тревор Хасті та Роберт Тібшірані має хорошу думку про цю тему


3
На це часто посилається щось на зразок "помилка неправильної специфікації моделі", щоб не плутати її зі стандартним визначенням упередженості, наведеним у прийнятій відповіді. Інакше було б неможливо осмислити (правильне) твердження, що OLS є неупередженим оцінювачем коефіцієнтів регресорів.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.