Нерівномірний розподіл p-значень при моделюванні біноміальних тестів під нульовою гіпотезою


17

Я чув, що згідно з нульовою гіпотезою розподіл p значення має бути рівномірним. Однак моделювання біноміального тесту в MATLAB повертається дуже різними від однорідних розподілів із середнім значенням більше 0,5 (0,518 в даному випадку): введіть тут опис зображення

coin = [0 1];
success_vec = nan(20000,1);

for i = 1:20000
    success = 0;
    for j = 1:200
        success = success + coin(randperm(2,1));
    end
    success_vec(i) = success;
end

    p_vec = binocdf(success_vec,200,0.5);
    hist(p_vec);

Спроба змінити спосіб генерування випадкових чисел не допомогла. Я дуже вдячний будь-яким поясненням тут.


6
Один момент, який слід враховувати, полягає в тому, що значення p у біноміальному тесті прийматимуть лише певні дискретні значення (оскільки чисельник дискретний): як приклад, із 20 випробувань [монети монет] за експеримент є лише 11 дискретних p- значення, які можна повернути. Це можливих p-значень, тому при n = 200 випробувань за експеримент 101 дискретний p-значення. n/2+1
Джеймс Стенлі

Що саме робить "біноміальний тест" Матлаба?
whuber

2
Здається, що це біноміальний тест на афішу, binocdfце лише CDF біноміального uk.mathworks.com/help/stats/binocdf.html
сполучаєтьсяпріонер

Відповіді:


20

У результаті, що значення мають рівномірний розподіл під має значення для постійно розподіленої статистики тестів - принаймні, для нульових точок, як у вас тут.pH0

Як згадує Джеймс Стенлі у коментарях, розподіл тестової статистики дискретний, тому результат не застосовується. Можливо, у вашому коді взагалі немає помилок (хоча я не відображав би дискретний розподіл з гістограмою, я схиляюся до відображення cdf чи pmf, а ще краще, обох).

Хоча насправді не є рівномірним, кожен стрибок у cdf p-значення приводить його до рядка (я не знаю назви для цього, але він повинен мати ім’я, можливо, щось на кшталт "quasi -уніформа '):F(x)=x

введіть тут опис зображення

Цю дистрибуцію цілком можливо обчислити, а не імітувати, - але я дотримувався ваших результатів і робив моделювання (хоча і більшого, ніж у вас).

Такий розподіл не повинен мати середнього значення 0,5, хоча при збільшенні у двочленні крок cdf наближатиметься до рядка, а середнє наближається до 0,5.n

Одним із наслідків дискретності р-значень є те, що досягаються лише певні рівні значущості - ті, які відповідають ступеневим висотам у фактичній сукупності cdf p-значень під нулем. Так, наприклад, у вас може бути близько 0,056 або близько 0,04, але не ближче до 0,05.α


Дякую Глен та @JamesStanley! Я намагаюся зрозуміти, що саме означає, що розподіл значення p не є рівномірним, і які наслідки стосується тестування гіпотез - але для цього я думаю, я просто
занурюсь

3
α

F(x)x

А.Донда, Glen_b - дякую! Ви були чудовою допомогою.
TanZor
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.