Чому стандартна похибка пропорції для даного n найбільша для 0,5?


10

Стандартна похибка пропорції буде найбільшою, вона може бути для даного N, коли пропорційна частка дорівнює 0,5, і зменшується, чим далі пропорція становить 0,5. Я бачу, чому це так, коли я дивлюсь на рівняння для стандартної похибки пропорції, але далі я не можу пояснити це.

Чи є пояснення поза математичними властивостями формули? Якщо так, то чому менша невизначеність щодо розрахункових пропорцій (для даного N), коли вони наближаються до 0 або 1?

Відповіді:


8

Передумови та термінологія

Щоб бути абсолютно зрозумілим, що ми обговорюємо, давайте встановимо деякі поняття та термінологію. Приємною моделлю пропорцій є двійкова урна: вона містить кулі, пофарбовані або сріблястими («успіх»), або фуксія («невдача»). Частка срібних кульок в урні дорівнює (але це не та «пропорція», про яку ми будемо говорити). p

Ця урна забезпечує спосіб моделювання судового процесу Бернуллі . Щоб отримати одну реалізацію, ретельно перемішайте кульки і сліпо намалюйте одну, спостерігаючи за її кольором. Для отримання додаткових реалізацій спочатку відновіть коробку, повернувши намальований кульку, після чого повторіть процедуру заздалегідь задану кількість разів. Послідовність реалізацій можуть бути зведені на число його успіхи, . Це випадкова величина, властивості якої повністю визначаються і . Розподіл називається двочленним розподілом. Пропорція (експериментальна, або "вибіркова") - це відношенняnXnpX(n,p)X/n.

Малюнок

Ці цифри є бароклами розподілу ймовірностей для різних біноміальних пропорцій . Найбільш примітною є послідовна закономірність, незалежно від , в якій розподіли стають вужчими (а смуги відповідно вище), коли рухається від вниз.X/nnp1/2

Стандартне відхилення - це стандартна похибка пропорції, згадана у питанні. Для будь-якого даного ця кількість може залежати лише від . Назвемо це . Перемикаючи ролі кульок - називайте сріблясті «невдачами», а фуксії - «успіхами» - легко зрозуміти, що . Таким чином, ситуація, коли - це, має бути особливою. Питання стосується того, як змінюється, коли відходить від до більш екстремального значення, такого якX/nnpse(p)se(p)=se(1p)p=1pp=1/2se(p)p1/20.

Знання проти розуміння

Оскільки всім було показано подібні цифри на початку навчання, всі "знають" ширину ділянок - які вимірюються повинні зменшуватися, коли відходить від . Але це знання - це просто досвід, тоді як питання шукає глибшого розуміння. Таке розуміння можна отримати з ретельного аналізу біноміальних розподілів, таких як Авраам де Мойвр, який здійснив близько 300 років тому. (Вони були схожі по духу з тими, які я представив під час обговорення теореми про центральну межу .) Я думаю, що, можливо, досить порівняно простих міркувань, щоб зробити висновок про те, що ширина повинна бути найширшою біля .se(p)p1/2p=1/2

Простий інтуїтивний аналіз

Зрозуміло, що слід очікувати, що частка успіхів в експерименті буде близькою до . Стандартна помилка стосується того, наскільки далеко від цього очікування ми можемо обгрунтовано припустити, що дійсний результат буде лежати. Припустимо, без втрати загальності, що становить від до , що потрібно для збільшення від ? Як правило, навколо куль, намальованих в експерименті, були сріблясті і (отже) навколо були фуксія. Щоб отримати більше срібних куль, деякі з цихpX/np01/2X/nppn(1p)npnРезультати фуксії мали бути різними. Наскільки ймовірно, що шанс може діяти таким чином? Очевидна відповідь полягає в тому, що коли невеликий, ми ніколи не дуже вірогідно будемо малювати срібну кулю. Таким чином, наші шанси намалювати срібні кульки замість фуксії завжди низькі. Ми можемо з розумом сподіватися, що за чистої удачі пропорція результатів фуксії могла б відрізнятися, але здається, що набагато більше, ніж це, змінилося б. Таким чином, правдоподібно, що не змінюватиметься набагато більше, ніж . В еквіваленті не змінюватиметься набагато більше, ніж .ppXp×(1p)nX/np(1p)n/n=p(1p)

розв'язка

Таким чином виявляється магічне поєднання . p(1p) Це практично вирішує питання: очевидно, що ця величина досягає і зменшується до нуля при або . Це дає інтуїтивне, але кількісне обґрунтування тверджень про те, що "одна крайність є більш обмежуючою, ніж інша", або інші подібні зусилля для опису того, що ми знаємо.p=1/2p=0p=1

Тим НЕ менше, не зовсім правильне значення: воно лише вказує шлях, кажучи нам , скільки повинно мати значення для оцінки поширення . Ми проігнорували той факт, що везіння також має тенденцію діяти проти нас: так само, як деякі кульки фуксії могли бути срібними, деякі з срібних куль могли бути і фуксіями. Облік всіх можливостей строго може ускладнитися, але результат в тому , що замість того , щоб використовувати як розумна межа на скільки може відхилятися від очікування , для обліку всіх можливих результатів правильно , ми маємо взяти квадратний коріньp(1p)Xp(1p)nXpn p(1p)n. (Для більш ретельного пояснення того, чому, будь ласка, відвідайте ( https://stats.stackexchange.com/a/3904 .) Розділившись на , ми дізнаємось, що випадкові зміни самої пропорції повинні бути в порядку що є стандартною помилкою .nX/np(1p)n/n=p(1p)n,X/n


3

Розглянемо функцію p (1-p) при 0 <= p <= 1. Використовуючи обчислення, ви бачите, що при p = 1/2 це 1/4, що є максимальним значенням. Якщо ви бачите, що це для двочлена, пов'язаного зі стандартним відхиленням оцінки пропорції, яка є sqrt (p (1-p) / n), то p = 1/2 - це максимум. Коли p = 1 або 0, стандартна помилка дорівнює 0, оскільки ви завжди отримаєте всі 1s або 0s відповідно. Отже, коли ви наближаєтесь до 0 або 1, аргумент безперервності говорить про те, що стандартна помилка наближається до 0, оскільки р наближається до 0 або 1. Насправді вона монотонно зменшується, коли р наближається до 0 або 1. Для великих n оцінена частка повинна бути близькою до фактичної пропорція.


3
ОП вже зауважило, що "я бачу, чому це так, коли я дивлюсь на рівняння для стандартної помилки пропорції". Тому я вважаю, що вони просять не проаналізувати формулу , а скоріше для більш глибокого розуміння того, чому формула - якою б вона не була - насправді повинна бути максимізована при . p(1p)p=1/2
whuber

1
@whuber Я відповів так, як це робив, бо бачу, що формула є основоположною для розуміння того, чому дисперсія найбільша при p = 1/2 і дуже мала, коли р близько 0 або 1. Можливо, найкраще сказати, що там немає жодного пояснення, повністю позбавленого формули.
Майкл Р. Черник

1

Біноміальний розподіл має тенденцію бути приблизно симетричні (при великому це приблизно нормально ).n

Оскільки коефіцієнт повинен бути між 0 і 1, невизначеність буде обмежена цими межами. Якщо середнє співвідношення точно не знаходиться посередині, один з цих меж буде більш обмежуючим, ніж інший.

Для симетричної унімодальної кривої дзвона, з центром у щоб вписатись в одиничний інтервал, її половинна ширина повинна бути меншою ніж . pmin[p,1p]


Так - але інша межа буде менш обмежуючою! Чому два ефекти не скасовуються?
whuber

@whuber Я сперечався з симетрією (тобто у простому "великому " випадку симетрична крива дзвону повинна вписуватися в інтервал, тому її половина ширини обмежена більш жорсткою стороною, )nmin[p,1p]
GeoMatt22
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.