Чи дає рівномірний розподіл багатьох р-значень статистичних доказів того, що H0 є правдою?


28

Один статистичний тест може свідчити про те, що нульова гіпотеза (H0) помилкова, і тому альтернативна гіпотеза (H1) є істинною. Але це не може бути використано, щоб показати, що H0 є істинним, оскільки відмова відхилити H0 не означає, що H0 є істинним.

Але припустимо, у вас є можливість зробити статистичний тест багато разів, тому що у вас є безліч наборів даних, всі незалежні один від одного. Усі набори даних є результатом одного і того ж процесу, і ви хочете зробити якесь твердження (H0 / H1) над самим процесом і не зацікавлені в результатах кожного окремого тесту. Потім ви збираєте всі отримані p-значення і випадково бачите через графік гістограми, що значення p чітко розподіляються рівномірно.

Моє міркування зараз полягає в тому, що це може статися лише за умови правдивості H0 - інакше р-значення розподіляться інакше. Чи є це достатньо доказів, щоб зробити висновок про те, що H0 є правдою? Або я пропускаю тут щось істотне, тому що мені знадобилося багато сили волі, щоб написати "висновок, що H0 - це правда", що просто звучить жахливо неправильно в моїй голові.


1
Можливо, вас зацікавить моя відповідь на інше запитання stats.stackexchange.com/questions/171742/…, де є коментарі щодо гіпотез.
mdewey

H0 є помилковим за своїм визначенням.
Джошуа

1
Зі сторони, причина, чому я маю так багато тестів (і не просто об'єднала всі дані в один), полягає в тому, що мої дані просторово розподіляються по всьому світу, і я хотів побачити, чи є просторові структури в p-значення (немає, але якщо вони були, це означало б, що або незалежність порушена, або H0 / H1 вірно в різних частинах земної кулі). Я не включив це до тексту запитання, тому що хотів зберегти його загальним.
Leander Moesinger

Відповіді:


22

H0H0H0

ОНОВЛЕННЯ

Ось демонстрація. Я генерую 100 зразків із 100 спостережень з розподілу Гаусса та Пуассона, потім отримую 100 p-значень для тесту на нормальність кожного зразка. Отже, передумова питання полягає в тому, що якщо значення р є від рівномірного розподілу, то це доводить, що нульова гіпотеза є правильною, що є більш сильним твердженням, ніж звичайне "не вдається відкинути" статистичні умовиводи. Біда в тому, що "р-значення є рівномірними" - це сама гіпотеза, яку потрібно якось перевірити.

На малюнку (перший рядок) нижче я показую гістограми p-значень з тесту на нормальність для вибірки Гуассіана та Пуассона, і ви можете бачити, що важко сказати, чи одна рівномірніша за іншу. Це було моє головне.

Другий рядок показує один із зразків з кожного розподілу. Зразки порівняно невеликі, тому дійсно не можна мати занадто багато контейнерів. Насправді цей конкретний зразок Гаусса зовсім не такий гауссовий на гістограмі.

У третьому ряді я показую комбіновані вибірки з 10 000 спостережень за кожне розподілення на гістограмі. Тут ви можете мати більше бункерів, а форми більш очевидні.

Нарешті, я запускаю той самий тест на нормальність і отримую p-значення для комбінованих зразків, і він відкидає нормальність для Пуассона, не відхиляючи його для Гауссана. Значення р: [0.45348631] [0.]

введіть тут опис зображення

Це, звичайно, не доказ, а демонстрація ідеї про те, що вам краще провести той же тест на комбінованій вибірці, а не намагатися проаналізувати розподіл p-значень за підпробочками.

Ось код Python:

import numpy as np
from scipy import stats
from matplotlib import pyplot as plt

def pvs(x):
    pn = x.shape[1]
    pvals = np.zeros(pn)
    for i in range(pn):
        pvals[i] = stats.jarque_bera(x[:,i])[1]
    return pvals

n = 100
pn = 100
mu, sigma = 1, 2
np.random.seed(0)
x = np.random.normal(mu, sigma, size=(n,pn))
x2 = np.random.poisson(15, size=(n,pn))
print(x[1,1])

pvals = pvs(x)
pvals2 = pvs(x2)

x_f = x.reshape((n*pn,1))
pvals_f = pvs(x_f)

x2_f = x2.reshape((n*pn,1))
pvals2_f = pvs(x2_f)
print(pvals_f,pvals2_f)

print(x_f.shape,x_f[:,0])


#print(pvals)
plt.figure(figsize=(9,9))
plt.subplot(3,2,1)
plt.hist(pvals)
plt.gca().set_title('True Normal')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,2)
plt.hist(pvals2)
plt.gca().set_title('Poisson')
plt.gca().set_ylabel('p-value')

plt.subplot(3,2,3)
plt.hist(x[:,0])
plt.gca().set_title('a small sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,4)
plt.hist(x2[:,0])
plt.gca().set_title('a small Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,5)
plt.hist(x_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.subplot(3,2,6)
plt.hist(x2_f[:,0],100)
plt.gca().set_title('Full Sample')
plt.gca().set_ylabel('x')

plt.show()

2
@LeanderMoesinger ви збираєтеся зробити більш вагомий момент, зібравши всі свої тести в один. Припустимо, ви маєте вибірку зі 100 спостереженнями і отримуєте p-значення; потім отримайте 99 додаткових зразків і отримаєте 100 p-значень. Натомість ви можете просто запустити один зразок 10 000 спостережень і отримати p-значення, але це буде більш переконливо.
Аксакал

1
@LeanderMoesinger, швидше за все, це буде не мало
Аксакал

1
Ваша відповідь не стосується питання, він не про доказ, а про докази .
Карлос Сінеллі

3
@CarlosCinelli, у нього буде купа р-значень, які, на його думку, є рівномірними. Як це доказ, якщо він не доводить, що значення є однаковими? Це саме те, про що я кажу.
Аксакал

2
@Aksakal йдеться про математику, спостережувана подія (подібно послідовності p-значень) може не бути свідченням чогось, але причина логічно не випливає з вашого аргументу.
Карлос Сінеллі

21

n

H0H0

Девід Юм і проблема індукції

H0H0

aA[aB]

  • Протягом століть кожен лебідь, який спостерігали європейці, був білим. Тоді європейці відкрили Австралію і побачили чорних лебедів.

  • Протягом століть закон тяжіння Ньютона погоджувався із спостереженням і вважався правильним. Це було перевернуто хоч теорією загальної відносності Ейнштейна.

H0

Неповний перелік шляхів подання:

Карл Поппер і фальсифікація

На думку Карла Поппера , жоден науковий закон ніколи не доводиться істинним. У нас є лише наукові закони, ще не доведені хибними.

Поппер стверджував, що наука рухається вперед, відгадуючи гіпотези і піддаючи їх суворій ретельній увазі. Він просувається вперед шляхом дедукції (спостереження, що підтверджує теорії помилковими), а не індукцією (повторне спостереження, що підтверджує теорії істинними). Значна частина частолістської статистики була побудована відповідно до цієї філософії.

Думка Поппера була надзвичайно впливовою, але, як стверджували Кун та інші, це не зовсім відповідає емпірично дотриманій практиці успішної науки.

Байєсова, суб'єктивна ймовірність

θ

θθθP(θ)P(θX)θX. Те, як ти поводишся в різних ситуаціях, має певну відповідність цим суб'єктивним імовірностям.

Це логічний спосіб моделювання власних суб'єктивних переконань, але це не чарівний спосіб створення ймовірностей, що відповідають дійсності з точки зору відповідності дійсності. Складне питання для будь-якої байєсівської інтерпретації - звідки беруться пріори? Крім того, що робити, якщо модель неправильно уточнена?

Джордж П. Бокс

Відомий афоризм Джорджа EP Box полягає в тому, що "всі моделі помилкові, але деякі корисні".

Закон Ньютона може бути істинним, але він все-таки корисний для багатьох проблем. Погляд Box є досить важливим у сучасному контексті великих даних, коли дослідження настільки переважають, що ви можете в основному відкинути будь-яку змістовну пропозицію. Суворо істинно проти неправдивих є поганим питанням: важливо, чи допоможе модель зрозуміти дані.

Додаткові коментарі

θ0

Можливо, також цікаво, що статистичний аналіз результатів декількох досліджень називається метааналізом .

Наскільки далеко ви можете вийти за рамки вузьких статистичних інтерпретацій - важке питання.


Це було цікаве прочитання і дало кілька приємних речей подумати! Я хотів би прийняти кілька відповідей.
Leander Moesinger

Досить пояснення. Мій проф одного разу підсумував Куна в дусі Поппера: "Наука прогресує від похорону до похорону"
скруббер

Кун та ін, як відомо, неправильно трактують Поппера, стверджуючи, що його спостереження не відповідають тому, як робиться наука. Це відоме як рідний фальсифікація, і це не те, що висунув Поппер (пізніше). Це солом’яний чоловік.
Конрад Рудольф

2
Такі відповіді я постійно відвідую на сайтах StackExchange.
Триларіон

5

У певному сенсі ви праві (див. Криву p) з деякими невеликими застереженнями:

  1. pααH0
  2. H0H0

З реалістичними додатками ви, як правило, отримуєте додаткові проблеми. Вони здебільшого виникають, тому що жодна людина / лабораторія / навчальна група зазвичай не може зробити всі необхідні дослідження. Як результат, людина схильна розглядати дослідження багатьох груп, і тоді у вас виникли занепокоєння (тобто, якщо ви самі робили всі відповідні експерименти, принаймні, ви знали) про недооцінку, вибіркове повідомлення про значні / дивовижні результати, p-хакерство, багаторазове тестування / численні виправлення тестування тощо.


1
(+1) Точка живлення надзвичайно важлива! Різні теорії можуть давати спостережливі еквівалентні дані, і важливою частиною проекту експерименту є створення та / або збір даних, які дозволять вам розрізнити.
Меттью Ганн

-2

Нульова гіпотеза (H0): Гравітація призводить до того, що все у Всесвіті падає на земну поверхню.

Чергова гіпотеза (H1): ніколи нічого не падає.

p<0.01


2
Як ви думаєте, Галілей здійснив мільйон випробувань? Жоден із цього матеріалу не потрібен фізичним наукам. Встановлення законів природи за допомогою наукового методу не зводиться до статистичного висновку.
Аксакал

1
-1 Це науково, статистично та історично неточно. Колись греки вважали, що саме спорідненість малює предмети до Землі. Непогано, але не добре пояснює проблеми з системою тіла 3+. Гіпотези повинні доповнювати один одного. Нарешті, твердження про можливий відомий ухил як H_0 та показ експериментів продовжують призводити до того ж неправильного висновку, не робить висновок правильним. наприклад, жінки заробляють менше, ніж чоловіки на рік, вони менше рухаються, вибірки всіх зарплат жінки, H_0 це правда!
АдамО

@AdamO - це саме моя думка.
usul

@AdamO, у західних країнах жінки заробляють менше, коли працюють менше з різних причин, включаючи власний вибір, знешкодження будь-яких видів та вороже робоче середовище. Якщо вони працюють однаково, вони заробляють приблизно однаково, наприклад, дивіться зарплату медсестер, де переважна більшість жінок: medscape.com/slideshow/… . Всі вони заробляють ті ж 37 доларів, працюючи щогодини. Зовсім поза темою, звичайно.
Аксакал

2
Якщо ваша нулева гіпотеза - Gravity causes everything in the universe to fall toward Earth's surfaceце не альтернативна гіпотеза There is at least one thing in the universe that does not fall toward the Earth's surfaceі ні Nothing ever falls?
Ефф
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.