Як перевірити медіану популяції?


9

Я маю зразок у 250 одиниць. Розподіл асиметричний. Я хочу перевірити гіпотезу про те, що медіана популяції відрізняється від 3,5, тому я вважаю, що тест на одній вибірці був би доречним. Я знаю, що тест рангу Вілкоксона не підходить, оскільки розподіл не симетричний. Чи доцільно використовувати тестовий знак? Якщо це не так, чи може хтось порекомендувати будь-який інший тест?


3
Ви втратили мене на першому рядку з кількох причин. (1) Зразок не може мати розподілу Гаусса (але він може приблизно мати його). (2) Однією з характеристик усіх гауссових розподілів (а отже і наближень до них) є симетрія . Ви суперечили собі. Описуючи свої дані у власних термінах, а не на статистичному жаргоні, ви краще повідомте, що у вас є. Чи можете ви також пояснити якомога простішим способом, що ви дійсно хочете досягти зі своїми даними? Яку інформацію має на меті "вибірковий тест на основі медіани"?
whuber

1
Медіана вибірки є якою б вона не була; не потрібно було б це перевіряти. Можливо, ви хочете перевірити, чи дорівнює медіана популяції (з якої отримано вибірку) ? Якщо так, важливо знати, як було розроблено значення . Можливо, це підсумок якогось іншого набору даних, можливо? Або це якесь заздалегідь визначене число, наприклад стандарт якості? 3.53.5
whuber

1
Це заздалегідь визначене число
LeonRupnik

2
" Розподіл асиметричний, тому я хочу перевірити гіпотезу, якщо медіана популяції відрізняється від 3,5 ..." - Чому асиметрія у вибірці впливає на те, яка гіпотеза цікава? " Чи доцільно використовувати тест знаків? " - впевнений, але (принаймні, в оригінальній формі) він покладається на безперервність - вам потрібно адаптувати його, якщо ваша змінна дискретна (ви не кажете, з чого складаються ваші дані з).
Glen_b -Встановіть Моніку

Дані безперервні
ЛеонРупник

Відповіді:


8

Конспект

Кількість даних перевищує 3.5 має біноміальний розподіл з невідомою ймовірністю p. Використовуйте це для проведення біноміального тесту наp=1/2 проти альтернативи p1/2.

У решті цієї публікації пояснюється основна модель та показано, як виконувати обчислення. Він надає робочий Rкод для їх виконання. Розширений виклад основної теорії тестування гіпотез представлений у моїй відповіді на тему "Яке значення p-значень та t-значень у статистичних тестах?" .

Статистична модель

Припустимо, що значення досить різноманітні (з невеликими зв'язками на рівні) 3.5), то, згідно з вашою нульовою гіпотезою, будь-яке випадкове вибіркове значення має а 1/2=50% шанс перевищення 3.5 (відтоді 3.5характеризується як середня цінність населення). Припускаючи всіх250 значення вибірково і незалежно відбирали, кількість їх перевищувала 3.5 тому матиме двочлен(250,1/2)розповсюдження. Назвемо це число "рахунком"k.

З іншого боку, якщо медіана населення відрізняється від 3.5, шанс випадкового вибіркового значення перевищує 3.5 буде відрізнятися від 1/2. Це альтернативна гіпотеза.

Пошук відповідного тесту

Найкращий спосіб відрізнити нульову ситуацію від її альтернатив - це переглянути значення кякі, швидше за все, під нульовими і менш імовірними за альтернативами. Це значення поблизу1/2 з 250, дорівнює 125. Таким чином, критична область для вашого тесту складається із значень, відносно далеких від125: близько до 0 або близько до 250. Але як далеко від цього125 вони повинні бути вагомим доказом цього 3.5 чи не посереднє населення?

Це залежить від вашого рівня значущості: це називається розміром тесту , який часто називаютьα. Згідно з нульовою гіпотезою, вона повинна бути близькою - але не більше ніж -α Шанс, що к буде в критичній області.

Зазвичай, коли у нас немає попередніх уявлень про те, яка альтернатива буде застосовуватися - медіана більша або менша 3.5- ми намагаємось побудувати критичну область так, щоб була половина цього шансу, α/2, що к низька, а друга половина, α/2, що квисока. Тому що ми знаємо розподілк згідно з нульовою гіпотезою, цієї інформації достатньо для визначення критичної області.

Технічно існує два загальних способи проведення обчислення: обчислити біноміальні ймовірності або наблизити їх до нормального розподілу.

Розрахунок з біноміальними ймовірностями

Використовуйте функцію відсоткового пункту (квантиля). В R, наприклад, це називається qbinomі буде викликатися як

alpha <- 0.05 # Test size
c(qbinom(alpha/2, 250, 1/2)-1, qbinom(1-alpha/2, 250, 1/2)+1)

Вихід для α=0,05 є

109 141

Це означає, що критична область містить усі низькі значення к між (і включаючи) 0 і 109, разом з усіма високими значеннями к між (і включаючи) 141 і 250. Як перевірку, ми можемо попросити Rобчислити ймовірність, що kлежить у цій області, коли нуль відповідає дійсності:

pbinom(109, 250, 1/2) + (1-pbinom(141-1, 250, 1/2))

Вихід є 0,0497, дуже близький до - але не більше ніж ...αсебе. Оскільки критична область повинна закінчуватися цілою кількістю, зазвичай не можливо зробити цей фактичний розмір тесту точно рівним номінальному тестовому розміруα, але в цьому випадку ці два значення справді дуже близькі.

Розрахунок з нормальним наближенням

Середнє значення двочлена(250,1/2) поширення є 250×1/2=125 і його дисперсія є 250×1/2×(11/2)=250/4, зробивши його стандартне відхилення рівним 250/47.9. Ми замінимо двочленний розподіл на нормальний розподіл. Стандартний нормальний розподіл маєα/2=0.05/2 її ймовірність менше, ніж 1.95996, як обчислюється Rкомандою

qnorm(alpha/2)

Оскільки нормальні розподіли симетричні, він також має 0.05/2 її ймовірність більша, ніж +1.95996. Тому критична область складається з значеньk що більше 1.95996 стандартні відхилення від 125. Обчисліть ці пороги: вони рівні125±7.9×1.96109.5,140.5. Розрахунок можна проводити одним махом як

250*1/2 + sqrt(250*1/2*(1-1/2)) * qnorm(alpha/2) * c(1,-1)

З тих пір k повинно бути ціле число, ми бачимо, що воно потрапить у критичну область, коли є 109 або менше або 141або більше. Ця відповідь ідентична відповіді, отриманій за допомогою точного біноміального обчислення. Зазвичай це відбувається, колиp ближче 1/2 ніж це 0 або 1, розмір вибірки від середнього до великого (десятки і більше) та α не дуже малий (кілька відсотків).


Цей тест, оскільки він не передбачає нічого щодо населення (крім того, що він не має великої кількості ймовірностей, орієнтованих прямо на його медіану), не настільки потужний, як інші тести, які роблять конкретні припущення щодо популяції. Якщо тест все-таки відхиляє нуль, не потрібно турбуватися про відсутність живлення. В іншому випадку вам доведеться зробити делікатні компроміси між тим, що ви готові взяти на себе, і тим, що ви можете зробити висновок щодо населення.


2
Оскільки це практично відпрацьований приклад вашої досить абстрактнішої відповіді на " значення значення p ", причому не лише у формуванні тієї самої філософії, але і в тому, як структурується ваша відповідь, я думаю, вам слід пов’язати це ("Приклад як це застосовується на практиці, можна дізнатися з моєї відповіді на ... ") у висновку вашої відповіді там.
Срібна рибка

2
@Silver Дякую; що справді перейшло мені в голову. Я подумав, що, можливо, спочатку трохи зачекаю. Крім усього іншого, я не здивувався б, якби якийсь заповзятливий член громади викопав дублюючу нитку, яку я хотів би детальніше вивчити. Зрештою, це основний матеріал - про біноміальні тести було задано багато питань. Єдине твердження, яке має бути новим, - це те, що він прибув сюди як потреба в тесті на медіану - тож це було не так очевидно біноміальним тестом - і єдине твердження, що моя відповідь має бути гідним читання полягає в його прагненні пояснити кожен крок.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.