Злом P-значення


6

Злом P-значення - це "мистецтво" дивитися на різні результати та технічні характеристики, поки ви не отримаєте "помилковий позитив", тобто значення ap під, скажімо, 0,05, яке створює лише шум і не відповідає дійсності в процесі генерації даних.

Скажімо, я маю оброблювану групу розміром та контрольну групу з розмірами , змінними результатів, і я орієнтуюся на p-значення : Як я можу обчислити попередню ймовірність отримання хоча б одного помилкового позитивного значущого результату під ?M K p pNMKpp

Можна припустити , що характеристики незалежно один від одного і нормально розподілені, і якщо це спрощує багато, що .M = NKM=N


Повне розкриття: Мене вражає досить цікавий результат, де . Я хотів би отримати приблизну оцінку того, наскільки ймовірний їхній цікавий результат походить від занадто багатьох цікавих змінних. M+N=50
FooBar

Яка саме ваша нульова гіпотеза? Що середнє значення даної характеристики однакове для обох груп? (І це повторюється для всіх змінних ) Я не впевнений, але, думаю, вам також доведеться сказати щось про тип базового розподілу ймовірностей. K
Гіскард

Можливо цікава та актуальна стаття . Цитата із статті "Подальше звільнення Фуджі невдовзі відбулося затопленням кричущих доказів про його роботу. 8 березня" Анестезія "опублікувала аналіз Джона Карлайла, консультанта-анестезіолога з лікарні" Торбай "в Торкі, Великобританія, виявивши, що 168 з Документи Фуджі мали результати з "вірогідністю, яка нескінченно мала". "Підсумок: хлопець використовував статистику, щоб показати кратні результати
Йошитаки

1

2
Foobar, так, саме тому я сказав, що це можливо відповідне ха-ха - Це не зовсім прямо пов’язано, але ваше запитання мені нагадало про це. Ваша стаття здається трохи більше пов’язаною :) @ AndréPeseur, я думаю, що між нашим веб-сайтом і перехресною валідацією буде певне збіг тем. Я вважаю, що економетрика тут повинна бути на тему - Не про SE або щось інше. Можливо, запустіть мета-пост, щоб далі обговорити його, якщо ви не згодні.
cc7768

Відповіді:


9

Згідно з припущенням про нормальні характеристики iid, описану ситуацію опікують окремими тестами Welch, які враховують можливі різні розміри вибірки та різні відхилення. Позначимо статистику цих тестів . Значення р, пов'язане з кожним, єtj,j=1,...,K

pj=Pr(|tj|t(α)H0)

де - гіпотеза про те, що засоби популяції між лікуваною та контрольованою групою є рівними, а залежить від рівня значущості . H0t1α

Ми можемо записати ймовірність через відповідну функцію кумулятивного розподілу,

Pr(|tj|t(α)H0)=1F(|tj|)

Тому

pj=1F(|tj|)1pj=F(|tj|)

Якщо ми розглянемо ситуацію апріорі, перш ніж навіть дивитися на дані, то значення p лежать у майбутньому і можуть моделюватися як випадкові величини. Розглянута як випадкова величина, інтегральне перетворення ймовірності говорить про те, що слідує за рівномірним розподілом , а за властивостями цього розподілу так само .1pjU(0,1)pj

Зібравши всі , маємо вибірку розміру незалежної уніформи. Ймовірність того, що хоча б одна з них менша, ніж певне значення, скажімо, , дорівнює ймовірності того, що мінімум з них нижчий за цей поріг. Це можна зрозуміти так:pjKU(0,1)p

Pr(At least one pjp)=Pr(Not all pj>p)

=1Pr(All pj>p)=1j=1KPr(pj>p)

через незалежність і так, оскільки вони однаково розподілені,

Pr(At least one pjp)=1[1Pr(pp)]K=1[1FU(p)]K

Але це сукупна функція розподілу мінімуму iid випадкових величин.K

Позначимо цей мінімум .p(1)

CDF мінімуму незалежних змінних дорівнюєKU(0,1)

Fp(1)(p(1))=1[1p(1)]K

Ми хочемо ймовірності

Pr(p(1)p)=1[1p]K

Орієнтовні значення:

введіть тут опис зображення


" Тести Welch, які враховують можливі різні розміри вибірки та різні відхилення ". Я встиг лише прокинути відповідь до цих пір, але не можу знайти, де розмір зразка , вписується в малюнок. Як остання таблиця змінюється залежно від розміру вибірки? MN
FooBar

2
Це не так. Як випадкові величини, р-значення є Уніформами (0,1) незалежно від інших аспектів ситуації. Єдине , що має значення розмір . K
Алекос Пападопулос

Це дивно. У цьому посиланні стверджується щось інше: " Якщо виміряти велику кількість речей щодо невеликої кількості людей, ви майже гарантовано отримаєте" статистично значимий "результат. Наше дослідження включало 18 різних вимірювань - вага, холестерин, натрій, білок крові рівень, якість сну, самопочуття тощо - від 15 людей. " Які основні припущення тут призводять до різного результату?
FooBar

1
Вирішальна частина заяви є «великою кількістю речей», тобто великий . Поверніться до посилання та прочитайте трохи нижче підрозділу "Гачок". Ви побачите ту саму формулу, що і в моїй відповіді, і відсоток, що відповідає моїй таблиці. K
Алекос Пападопулос

Я бачу. Тож його формулювання "велика кількість речей про невелику кількість людей" передбачає неправильну річ, вона повинна бути без "малої кількості людей"
FooBar

3

Я погоджуюсь з @AlecosPapadopoulos, ми хочемо чогось типу: Але я не бачу, як і не міг увійти до належної статистики тесту. Наприклад, якщо базові дані зазвичай розподіляються в iid даних, то і мають значення.

Pr(p(1)p)=1[1p]K
nMNM

Розглянемо, що середній рівень шуму та дисперсія , який, за припущенням, однаковий для контрольної та "обробленої" групи. Середнє значення оброблюваної групи з розміром N буде розподілено та для контролю. Тож різниця в засобах буде розподіленаμσN(μ,σ2/n)N(μ,σ2/M)

N(0,σ2/n+σ2/m)

Але ви не знатимете або , тому нам доведеться оцінити його за допомогою , і і використовувати t-тест. Ця настройка дає такий t-tatistic, як цей: де SRC: t-тест студента у ВікіпедіїσμX1X2sX1X2

t=X¯1X¯2sX1X21n+1m
sX1X2=(n1)sX12+(m1)sX22n+m.

Неспарений зразок t-тесту на цю різницю в засобах має ступінь свободи . Тому область відхилення повинна залежати як від n, так і від m, як від того, яке критичне значення тесту використовувати через ступінь свободи цього тесту, так і самого статистичного розрахунку тесту.NM2


1
Звичайно, розміри вибірки входять до тестової статистики, але це не впливає на конкретну ймовірність, про яку задається ОП (тобто апріорна ймовірність того, що ми отримаємо принаймні одне p-значення нижче заданого порогу).
Алекос Пападопулос

Правильно визначений тест включав би кілька порівнянь так само, як і вибірки та ступінь свободи - так? Тож це питання про використання неправильної статистики тесту вздовж лише множинного порівняльного виміру, але належним чином вказаного на окремому вимірі порівняння? Тому що наявність m і n у тестовій статистиці саме тому, що невеликий розмір вибірки, швидше за все, матиме велику різницю під нульовою гіпотезою.
BKay

1
Важливим моментом тут є те, що апріорі, а) р-значення має граничне розподіл U (0,1), незалежно від будь-якого іншого (розмір вибірки чи будь-який інший). Це загальний результат в будь-якій ситуації. Це повинно бути інтуїтивно зрозумілим: що буде, якби р-значення апріорі мало нерівномірний розподіл? ПОДРОБИТИСЯ
Алекос Пападопулос

1
ЗМІСТ Це означало б, що деякі її значення будуть більш ймовірними, ніж інші, знову ж таки незалежно від специфіки ситуації . Але це призведе до недійсності всієї процедури тестування, саме тому, що це означає, що "не має значення те, що ви протестуєте, який розмір вибірки тощо - це значення для p-значення більш вірогідне, ніж для інших".
Алекос Пападопулос

Дякую обом за розширену дискусію, мені потрібно дізнатися більше про це, і я вважаю, що це, безумовно, має бути частиною навчальної програми для аспірантури.
FooBar

2

Інші відповіді хороші, але я подумав, що ще одна відповідь з незначним фокусом може бути гарним доповненням.

Чи впливає розмір вибірки зазвичай на помилково позитивний показник?

Судячи з коментарів, я вважаю, що питання запропоновано цією статтею , яка включає пару помилок (або принаймні неправильних слів).

По-перше (і що найбільше турбує загалом), воно невірно визначає значення p, але, більш доречно, воно включає речення "Якщо ви вимірюєте велику кількість речей щодо невеликої кількості людей, ви майже гарантовано отримаєте" статистично значимий "результат . "

Значення р - це ймовірність, якщо припустити, що нульова гіпотеза є істинною, спостерігати результат як мінімум такий же крайній, як і той, що насправді спостерігався. Як зазначено в інших відповідях, це означає, що він повинен бути рівномірно розподілений між 0 і 1 незалежно від розміру вибірки, базових розподілів тощо.

Таким чином, речення повинне було зазначати: "Якщо виміряти велику кількість речей щодо невеликої кількості людей , ви майже гарантовано отримаєте" статистично значимий "результат".

Як правильно підраховано у статті, навіть якщо шоколад точно нічого не робить, було 60% шансу (припускаючи незалежність тощо) отримати значний результат.

Насправді вони отримали три значні результати, що досить дивно (p = 0,06 при - ймовірно нереалістичному - припущенні незалежності).

Чи впливає розмір вибірки ніколи на помилково-позитивний показник?

Насправді іноді це відбувається, хоча це дійсно має значення лише в тому випадку, якщо розмір вибірки дійсно невеликий.

Я сказав, що (припускаючи, що нульова гіпотеза правдива) р-значення повинно бути розподілено рівномірно. Але рівномірний розподіл є безперервним, тоді як велика кількість даних є дискретними лише з кінцевим числом можливих результатів.

Якщо я кидаю монету кілька разів, щоб перевірити, чи вона упереджена, є лише кілька можливих результатів, а отже, і кілька можливих p-значень, тому розподіл потенційних p-значень є дуже поганим наближенням до рівномірного розподілу. Якщо я переверну його досить кілька разів, то, можливо, неможливо отримати суттєвий результат.

Ось приклад випадку, коли це насправді сталося.

Тож у вас вийде щось на кшталт "Якщо ви вимірюєте певні типи речей щодо достатньо малої кількості людей, ви ніколи не отримаєте" статистично значимого "результату, незалежно від того, скільки речей ви намагаєтеся".

Це означає, що ви не повинні турбуватися про розмір вибірки, якщо результат позитивний?

Ні. Деякі позитивні результати є помилковими, а деякі - справжніми. Як обговорювалося вище, зазвичай можна з упевненістю припустити, що показник помилково-позитивного значення є фіксованим (як правило, 5%). Але менший розмір вибірки завжди робить справжні позитивні результати менш імовірними (те, що менший розмір вибірки означає, що тест має меншу потужність ). І якщо у вас однакова кількість помилкових позитивів, але менше справжніх позитивних результатів, випадково обраний позитивний результат швидше буде помилковим.


Мене бентежать ваші два останні пункти. Чи правильно, як зменшується розмір вибірки, зменшується ймовірність позитивних результатів, а ймовірність справжніх позитивних ефектів зменшується більше, ніж ймовірність помилкових позитивних результатів ? Якщо так, то як це відповідає " У той час як невеликий зразок не може зробити помилкові позитиви більш імовірними, це може зробити їх менш ймовірними ".
FooBar

Для будь-якого нечітко обґрунтованого розміру вибірки можна з упевненістю припустити, що показник помилково-позитивного значення фіксується на рівні 5%. Але як би великий не був ваш вибір, додавання більшої кількості людей збільшує істинно-позитивний показник. Зараз у мене мало часу, тому я можу вносити дуже швидкі редагування, але спробую правильно покращити формулювання, коли отримаю можливість.
Раул

2

Є ще одне, що, можливо, варто додати до відмінних відповідей вище, а це, по суті, також відбувається гра з мета-числами. Скажімо, що 20 науковців роблять один і той же набір експериментів, шукаючи щось, можливо, слабко співвіднесене, наприклад, "чи викликає шоколад серцевий напад", і приймуть значення р <0,05, яке, відверто кажучи, не повинно. Сукупна ймовірність полягає в тому, що один вчений отримає значну знахідку, це один експеримент, який буде опублікований, оскільки негативні результати рідко приймаються. Тоді є 100% шанс, що цю знахідку підберуть Bild Zeitungs цього світу і неправильно повідомляють.

На жаль, оскільки ми не повідомляємо про відсутність результатів, ми, по суті, займаємось загальнонаціональними вправами повідомляти про всі експерименти, яким пощастило - в неправильному розумінні цього слова.

Для предметів, що мають сильну теоретичну основу, хороший експериментальний дизайн забезпечує певний захист від цього - для суб'єктів, яким домінуюче доводиться працювати з даними спостережень, і намагаються опрацювати теорію - як економіку - це головне питання.

Додано: Про широку дискусію з усієї проблеми - і дуже добре написану - дивіться у статті, що розпочала нещодавні дискусії:

Дослідження показника помилкового виявлення та неправильного тлумачення p-значень Девіда Колкхуна


Це дуже гарне зауваження. Проблема наносить знахідки та мета-результати, засновані також на попередніх роботах. Однак я думаю, що це, можливо, не синхронізовано з цим конкретним питанням, оскільки думковий експеримент здається, що окремий вчений-хакер вимірює його шанси?
Giskard

Я не погоджуюся, проте, оскільки Фоборр запитував у контексті статті, яку він розглядав, я вважав, що не завадить закинути аналіз на найгірший випадок.
Лумі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.