Чи можете ви пояснити, чому статистична прив'язка не наївно відхиляється, коли ?


12

Мені потрібна допомога з поясненням та цитуванням базових текстів статистичних статей, статей чи інших посилань, чому взагалі невірно використовувати статистичні похибки (МНС), повідомлені при опитуванні, для наївного оголошення статистичної межі.

Приклад: Кандидат А веде кандидата B у опитуванні, відсотків, відхилення від помилки для опитаних виборців.4,5 % 50039314.5%500

Моїм другом такі причини:

Через тонкість статистичного моделювання, помилка означає, що справжня підтримка A може бути аж 34,5 відсотка, а B - до 35,5 відсотка. Тому A і B фактично знаходяться в статистичній мертвій спеці.

Вся допомога була вдячна за чітке формулювання міркувань мого друга. Я намагався пояснити, що неправильно наївно відкидати гіпотезу "А веде B", якщо . pApB<2MOE


Для подальшого обговорення цього питання, включаючи підходи до правильного поєднання МНС, див. Stats.stackexchange.com/questions/18215 .
качан

Відповіді:


7

Моя перша спроба відповіді була помилковою (див. Нижче хибну відповідь). Причиною цієї вади є те, що помилка (МНС), про яку повідомляється, застосовується до відсоткового відсоткового опитування кандидата, але не до різниці відсотків. Моя друга спроба явно вирішує питання, поставлене ОП, трохи краще.

Друга спроба

Один з причин ОП:

  1. Побудуйте довірчий інтервал для кандидата A та кандидата B окремо за допомогою даного МНС.
  2. Якщо вони перетинаються, ми маємо статистичний мертвий слух, а якщо цього немає, то A в даний час веде B.

Тут головне питання полягає в тому, що перший крок недійсний. Побудова інтервалів довіри незалежно для двох кандидатів не є дійсним кроком, оскільки відсотки опитування для двох кандидатів залежать від випадкових величин. Іншими словами, виборець, який вирішив не голосувати за А, може натомість вирішити голосувати за В. Таким чином, правильний спосіб оцінити, чи є потенційний результат чи ні, - це побудувати інтервал довіри для різниці. Дивіться у wiki про те, як обчислити стандартну помилку для різниці відсотків опитування за деякими припущеннями.

Неправильна відповідь нижче

На мою думку, «правильний» спосіб думати про результати опитування:

Під час опитування 500 виборців шанси на те, що ми побачимо різницю в показниках на 8%, перевищують 5%.

Незалежно від того, чи вважаєте ви, що "А лідери B" або "Зв'язки B", то залежить від того, наскільки ви готові прийняти 5% як ваші критерії обмеження.


@Srikvant. Припустимо, 5% є прийнятною значимістю. Я шукаю більш точну відповідь, яка висловлює думку про те, що "А веде B" - це нова статистика, різниця pA і pB, і що відповідний довірчий інтервал не просто 2 * МНС.

4

Простіше пояснити в стандартних відхиленнях, ніж довірчі інтервали.

Висновок вашого друга в основному правильний за найпростішою моделлю, де ви маєте просту випадкову вибірку та двох кандидатів. Тепер пропорції вибірки задовольняють так що . Таким чином, і так Можливо, що це просте відношення є можливим у тому, що та ідеально негативно співвідносяться, оскільки загалом pA+pB=1pB=1pA

Var(pApB)=Var(2pA1)=4Var(pA)
SD(pApB)=2SD(pA).
pApB
Var(pApB)=Var(pA)+Var(pB)2Cov(pA,pB).

Поза цією простою моделлю , якщо взагалі не відповідає, ви повинні врахувати кореляцію між та яка не включена в похибку. Це можливо для .p A p B S D ( p A - p B ) 2 S D ( p A )pA+pB=1pApBSD(pApB)2SD(pA)

Але весь цей нюанс, схоже, свідчить про те, що дільничні організації повинні повідомити про різницю помилок. Де Нейт Сілвер?


4

Мало того, що це поганий спосіб позначати речі, але це навіть не статистична мертва температура.

Ви не використовуєте таким чином довірчі інтервали, що перекриваються. Якщо ви дійсно хотіли сказати, що кандидат А збирається перемогти, то кандидат А безумовно лідирує. Свинець - 8% МНС, 6,4%. Інтервал довіри цього бала віднімання не подвоюється довірчим інтервалом для окремих балів. Мається на увазі твердження про перекриття КІ (± МНС) навколо кожної оцінки - мертве тепло. Якщо вважати рівними N та дисперсії, то Міністерство різниці різниться sqrt (2) рази 4,5. Це тому, що знаходження різниці між значеннями дозволило б лише подвоїти дисперсію (SD у квадраті). Довірчий інтервал базується на квадратній дисперсії, тому їх поєднання - це середнє значення (4,5) * sqrt (2). Оскільки Міністерство оборотів ваших 8% потенційних клієнтів становить приблизно 6,4%, то кандидат А лідирує.

На відміну від МНС дуже консервативні та ґрунтуються на 50% вибору. Формула - sqrt (0,25 / n) * 2. Існує формула для обчислення стандартних помилок балів різниці, яку ми також могли використовувати. Ми застосуємо, що використовуючи знайдені значення, а не 50% відсічки, і це все ще дає значну перевагу кандидату A (7,5% МНС). Я вважаю, що, враховуючи коментар запитуючих, і близькість цього відрізку до вибраного гіпотетичного, це, мабуть, те, що вони шукали.

Тут буде корисним будь-яке введення як в довірчі інтервали, так і в силу. Навіть стаття з Вікіпедії про МНС виглядає досить непогано.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.