Якщо значення p дорівнює рівно 1 (1.0000000), якими повинні бути межі довірчого інтервалу, щоб підтримувати нульову гіпотезу правдивою? [зачинено]


12

Це суто гіпотетичне питання. Дуже поширене твердження, що ніколи не відповідає дійсності, це лише питання розміру вибірки.H0

Припустимо, що по-справжньому не існує абсолютно ніякої вимірюваної різниці між двома засобами ( ), з нормально розподіленої сукупності (для обох і оцінюється ). Ми припускаємо на групу і використовуємо -test. Це означатиме, що становить вказує на відсутність абсолютно невідповідності від . Це означає, що статистика тесту дорівнює . Середня різниця між групами буде . Якими будуть межі довірчого інтервалу для середньої різниці в цьому випадку? Були б вониμ1=μ2μ=0σ=1N=16tp1.00000H00095%[0.0,0.0] ?

Основним моментом у моєму запитанні було те, що коли ми можемо реально сказати, що - це правда, тобто в цьому випадку? Або коли в частофілістських рамках ми можемо по-справжньому сказати "немає різниці", порівнюючи два засоби?H0μ1=μ2


1
Я б сказав, що на це вже відповіли тут stats.stackexchange.com/questions/275677/… , але я на цьому не наполягаю.
Тім

1
У мене виникають труднощі зі створенням способу отримати із позитивними відхиленнями населення. p=1
Дейв


3
"Ми припускаємо, що N = 16 на групу, і ми використовуємо t-тест. Це означатиме, що значення p дорівнює 1,00000, що вказує на те, що немає абсолютно невідповідності від H0" Чому ви стверджуєте, що щось (на що означає «це»?) Означає, що значення p дорівнює 1. Найчастіше р-значення рівномірно розподіляється, коли H_0 є істинним, а p = 1 трапляється майже ніколи.
Секст

2
@MartijnWeterings Абсолютно вірно - лише тому, що ви берете вибірку двох розподілів, які насправді однакові, не означає, що ви отримаєте p-значення 1 при їх порівнянні. За визначенням, у 5% часу ви отримаєте значення р нижче 0,05.
Ядерна Ванга

Відповіді:


17

Інтервал довіри для t-тесту має форму , де і - це вибіркові засоби, - критичне значення у заданому , а - це стандартна помилка різниці в засобах. Якщо , то . Отже, формула - це просто , а обмеження - просто { ,x¯1x¯2±tcrit,αsx¯1x¯2x¯1x¯2tcrit,αtαsx¯1x¯2p=1.0x¯1x¯2=0±tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2tcrit,αsx¯1x¯2 }.

Я не впевнений, чому ви думаєте, що обмеження будутьКритичне значення не дорівнює нулю, а стандартна помилка середньої різниці не дорівнює нулю.{0,0}.t


10

Надзвичайно ледачий, використовуючи R, щоб вирішити проблему чисельно, а не робити обчислення вручну:

Визначити функцію , яка буде давати нормально розподілені значення з середнім значенням (майже!) Рівне нуль і SD в точності 1:

rn2 <- function(n) {r <- rnorm(n); c(scale(r)) }

Запустіть t-тест:

t.test(rn2(16),rn2(16))

    Welch Two Sample t-test

data:  rn2(16) and rn2(16)
t = 1.7173e-17, df = 30, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.7220524  0.7220524
sample estimates:
   mean of x    mean of y 
6.938894e-18 8.673617e-19 

Засоби точно не дорівнюють нулю через неточність з плаваючою комою.

Більш безпосередньо, CI - ; дисперсія кожного середнього становить 1/16, тому об'єднана дисперсія становить 1/8.± sqrt(1/8)*qt(0.975,df=30)


8

ІС може мати будь-які межі, але він зосереджений рівно навколо нуля

Для двопробного Т-тесту (тестування на різницю в середньому для двох сукупностей) p-значення рівно одного відповідає випадку, коли спостережувані засоби вибірки точно рівні. (зразки варіантів можуть приймати будь-які значення.) Щоб побачити це, зауважте, що функція p-значення для тесту є:

pp(x,y)=P(|X¯Y¯SY/nY+SY/nY||x¯y¯sY/nY+sY/nY|).

Таким чином, встановлення дає результат:x¯=y¯

p(x,y)=P(|X¯Y¯SY/nY+SY/nY|0)=1.

Тепер, припустимо, ви формуєте стандартний (приблизний) довірчий інтервал, використовуючи наближення Вельча-Саттервейта. У цьому випадку, якщо припустити, що (щоб дати точне p-значення одиниці) дає інтервал довіри:x¯=y¯

CI(1α)=[0±sXnX+tDF,α/2sYnY],

де ступінь свободи визначається наближенням Велха-Саттервейта. Залежно від спостережуваних відхилень вибірки в задачі, довірчий інтервал може бути будь-яким кінцевим інтервалом, орієнтованим навколо нуля. Тобто довірчий інтервал може мати будь-які межі, якщо він зосереджений рівно навколо нуля.DF


Звичайно, якщо основні дані насправді надходять від безперервного розподілу, ця подія відбувається з нульовою ймовірністю, але припустимо, що це відбувається.


У запитанні сказано "σ оцінюється = 1".
Нагромадження

Ця умова не є необхідною для отримання p-значення, тому я її відкинув.
Бен - Відновлення Моніки

3

Важко вести зухвалу філософську дискусію про речі, які мають 0 ймовірність того, що трапиться. Тож я покажу вам кілька прикладів, які стосуються вашого питання.

Якщо у вас є два величезні незалежні вибірки з одного розподілу, то обидва зразки все ще матимуть певну мінливість, об'єднана 2-вибіркова t статистика буде близькою, але не точно 0, значення P буде розподілено як а 95% довірчий інтервал буде дуже коротким і по центру близькоUnif(0,1),0.

Приклад одного такого набору даних та t тесту:

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = rnorm(10^5, 100, 15)
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = -0.41372, df = 2e+05, p-value = 0.6791
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.1591659  0.1036827
sample estimates:
mean of x mean of y 
 99.96403  99.99177 

Ось підсумовані результати з 10 000 таких ситуацій. По-перше, розподіл P-значень.

set.seed(2019)
pv = replicate(10^4, 
   t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$p.val)
mean(pv)
[1] 0.5007066   # aprx 1/2
hist(pv, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dunif(x), add=T, col="red", lwd=2, n=10001)

введіть тут опис зображення

Далі тестова статистика:

set.seed(2019)  # same seed as above, so same 10^4 datasets
st = replicate(10^4, 
       t.test(rnorm(10^5,100,15),rnorm(10^5,100,15),var.eq=T)$stat)
mean(st)
[1] 0.002810332  # aprx 0
hist(st, prob=T, col="skyblue2", main="Simulated P-values")
 curve(dt(x, df=2e+05), add=T, col="red", lwd=2, n=10001)

введіть тут опис зображення

І так далі для ширини CI.

set.seed(2019)
w.ci = replicate(10^4, 
        diff(t.test(rnorm(10^5,100,15),
         rnorm(10^5,100,15),var.eq=T)$conf.int)) 
mean(w.ci)
[1] 0.2629603

Практично неможливо отримати Р-значення єдності, роблячи точний тест з постійними даними, де допущення виконуються. Настільки, що мудрий статистик задумається над тим, що могло піти не так, побачивши P-значення 1.

Наприклад, ви можете надати програмі два однакових великих зразка. Програмування буде продовжуватися так, ніби це два незалежні вибірки, і дасть дивні результати. Але навіть тоді ІС не буде шириною 0.

set.seed(902)
x1 = rnorm(10^5, 100, 15)  
x2 = x1
t.test(x1, x2, var.eq=T)

        Two Sample t-test

data:  x1 and x2
t = 0, df = 2e+05, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval: 
 -0.1316593  0.1316593
sample estimates:
mean of x mean of y 
 99.96403  99.96403 

Це все досить справедливо, тому що нормальний розподіл безперервний, ймовірність будь-якого конкретного прикладу дорівнює нулю, неважливо, u1 = u2 чи u1-u2 = -0,977 чи будь-що інше. Мене спокусило прокоментувати так: "цього ніколи не станеться, і, можливо, в цьому випадку щось не так, але я подумав, що ні, є сенс сказати, припустимо, що це сталося, прийнявши, що це має нульова ймовірність як будь-який конкретний приклад .
Левіан

1
Це правильна відповідь на неправильне запитання
Девід

1
@ Девід. Можливо, так. Якщо ви можете вказати, що ви вважаєте правильним питанням, і запропонувати відповідь, це може бути корисним для всіх. Я намагався вирішити лише декілька з тих, що, на мою думку, декількох помилок.
BruceET

ОП заявила: "Дуже поширеним є твердження, що H0 ніколи не відповідає дійсності". @ Відповідь BruceET демонструє, Чому H0 ніколи не можна прийняти. Чим ближче H0 до істини, тим більш рівномірним стає випадковий P, це означає, що Р між (0,98,0,99) так само вірогідний, як і Р між (0,1, 0,2), коли H0 є істинним.
Рон Дженсен - Ми всі Моніка

1

Відверта відповідь (+1 до Ноя) пояснить, що довірчий інтервал для середньої різниці може все-таки бути ненульовою довжиною, оскільки це залежить від спостережуваної зміни в вибірці іншим способом, ніж значення р.

Однак ви все ще можете задатися питанням, чому це так. Оскільки не дивно уявити, що високе значення р також означає малий інтервал довіри. Адже їм обом відповідає щось, що є близьким до підтвердження нульової гіпотези. То чому ця думка не правильна?

Високе значення p не є таким же, як малий довірчий інтервал.

  • Значення р - це показник того, наскільки екстремальним є конкретне спостереження (екстремальний з огляду на певну гіпотезу), виражаючи, наскільки вірогідним є спостереження за заданим відхиленням. Це вираження розміру спостережуваного ефекту по відношенню до точності експерименту (великий розмір спостережуваного ефекту може не дуже означати, коли експеримент такий "неточний", що ці спостереження не є крайніми з статистичної / імовірнісної точки зору. ). Якщо ви спостерігаєте p-значення 1, то це (тільки) означає, що ви спостерігали нульовий ефект, оскільки ймовірність спостерігати такий нульовий результат або більший дорівнює 1 (але це не те саме, що є нульовий ефект).

    Сторінка: Чому р-значення? Значення р виражає фактичний розмір спостережуваного ефекту стосовно очікуваних розмірів ефекту (ймовірностей). Це актуально, тому що експерименти можуть, за задумом, генерувати спостереження за відповідним розміром ефекту за чистих випадкових випадків через загальні коливання даних / застережень. Вимагати, щоб спостереження / експеримент мали низьке значення p, означає, що експеримент має високу точність - тобто: розмір спостережуваного ефекту рідше / вірогідний через випадковість / коливання (а це може бути наслідком справжнього ефекту) .

    Сторінка: для безперервних змінних це значення p, рівне 1, майже ніколи не відбувається, тому що це подія, яка має нульовий показник (Наприклад, для нормальної розподіленої змінної вас є ). Але для дискретної змінної або дискретизованої безперервної змінної це може бути так (принаймні ймовірність не нульова).XN(0,1)P(X=0)=0

  • Інтервал довіри може розглядатися як діапазон значень, для якого   успішний тест гіпотези рівня (для якого значення р вище ).αα

    Слід зазначити, що високе значення p не є (обов'язково) доказом / підтримкою / будь-яким для нульової гіпотези. Високе значення p означає лише, що спостереження не є чудовим / крайнім для даної нульової гіпотези, але це може бути так само, як і у випадку з альтернативною гіпотезою (тобто результат відповідає обом гіпотезам, так / ні ефект). Зазвичай це відбувається, коли дані не несуть багато інформації (наприклад, високий рівень шуму або невелика вибірка).

Приклад: Уявіть, що у вас є мішок з монетами, для якого у вас є чесні та несправедливі монети, і ви хочете класифікувати певну монету, перевернувши її 20 разів. (скажімо, монета - змінна бернуллі з для справедливих монет і для несправедливих монет. У цьому випадку, коли ви спостерігаєте 10 голів та 10 хвостів, то ви можете сказати, що p- Значення дорівнює 1, але я думаю, що очевидно, що несправедлива монета може так само добре створити цей результат, і ми не повинні виключати можливість несправедливості монети.p0.5pU(0,1)


1

Основним моментом у моєму запитанні було те, що коли ми можемо реально сказати, що - це правда, тобто в цьому випадку?H0μ1=μ2

Ні, оскільки "відсутність доказів не є свідченням відсутності". Ймовірність можна розглядати як розширення логіки з додатковими невизначеностями, тому уявіть на мить, що замість реальних чисел на одиничному інтервалі тест гіпотези поверне лише двійкові значення: 0 (помилкове) або 1 (істинне). У такому випадку застосовуються основні правила логіки, як у наступному прикладі :

  • Якщо надворі йшов дощ, то вірогідна земля мокра.
  • Земля мокра.
  • Тому надворі йшов дощ.

Земля могла бути дуже мокрою, бо йшов дощ. Або це може бути через спринклерну систему, хтось чистить їхні водостоки, зламався магістраль води тощо. Більш екстремальні приклади можна знайти за посиланням вище.

Що стосується довірчого інтервалу, якщо ваш зразок великий, і , то довірчий інтервал для різниці стане надзвичайно вузьким, але ненульовим. Як зауважили інші, ви могли спостерігати такі речі, як точні та нулі, але скоріше через обмеження точності з плаваючою комою.μ1μ20

Навіть якщо ви спостерігали та інтервал довіри , все одно потрібно пам’ятати, що тест дає лише приблизну відповідь. Роблячи тестування гіпотез, ми не тільки робимо припущення, що є істинним, але також робимо ряд інших припущень, наприклад, що вибірки є незалежними та приходять від нормального розподілу, що ніколи не відбувається для реальних даних. Тест дає приблизну відповідь на неправильно поставлене запитання, тому він не може «довести» гіпотезу, він може просто сказати «за тими необґрунтованими припущеннями, це було б малоймовірно» .p=1±0H0


0

Ніщо не заважає вам використовувати стандартні формули t- або Гаусса для обчислення довірчого інтервалу - вся необхідна інформація наведена у вашому запитанні. p = 1 не означає, що в цьому щось не так. Зауважте, що p = 1 не означає, що ви можете бути особливо впевнені, що H0 відповідає дійсності. Випадкова зміна все ще присутня, і якщо u0 = u1 може статися під H0, це може статися і якщо справжнє значення u0 трохи відрізняється від справжнього u1, тому в інтервалі довіри буде більше, ніж просто рівність.


Я зробив декілька редагувань, сподіваюся, зараз це більш визначено.
arkiaamu

Гаразд, я видалив посилання на те, що було неправильно визначено в попередній версії. Тим часом на це питання відповіли належним чином інші.
Левіан

Будь ласка, використовуйте позначення MathJax
David

0

Дуже поширене твердження, що H0 ніколи не відповідає дійсності, це лише питання розміру вибірки.

Не серед людей, які знають, про що говорять, і говорять точно. Традиційне тестування гіпотез ніколи не робить висновок про те, що нуль є істинним, але незалежно від того, чи є нуль істинним, чи ні, це окремо від того, чи є нуль укладеним як істинний.

Це означає, що р-значення дорівнює 1,00000

Для тесту з двома хвостами, так.

що свідчить про відсутність абсолютно невідповідності H0.

H0 - твердження про розподіл. Режим розподілу, наведений у дорівнює , тому між спостереженням та режимом розподілу немає розбіжностей, але не зовсім коректно сказати, що немає розбіжностей з . Жоден індивідуальний результат не буде розбіжністю, оскільки будь-яке значення може виходити з розподілу. Кожне p-значення однаково вірогідне. Отримати p-значення рівно .01 так само ймовірно, як отримати p-значення рівно 1 (крім питань дискретизації). Якщо ви мали купу незалежних зразків, і їх розподіл не відповідав тому, щоH00H0H 0H0 прогнозує, що набагато законніше було б назвати "невідповідністю", ніж просто бачити єдиний зразок, середнє значення якого не відповідає режиму.

Якими будуть межі 95% довірчого інтервалу для середньої різниці в цьому випадку?

До першого наближення межі 95% довірчого інтервалу приблизно вдвічі перевищують стандартне відхилення. Відсутня розрив на нулі. Якщо ви знайдете функцію яка знаходить 95% довірчий інтервал для різниці в засобах , ви можете просто взяти щоб знайти інтервал довіри для середня різниця нуля.f(ϵ)ϵlimϵ0f(ϵ)

Основним моментом у моєму запитанні було те, що коли ми можемо реально сказати, що H0 справжній, тобто μ1 = μ2 в даному випадку?

Ми можемо сказати все, що хочемо. Однак, твердження, що тест показує, що нуль є істинним, не відповідає традиційному тестуванню гіпотез, незалежно від результатів. І це не є обґрунтованим з очевидних позицій. Альтернативна гіпотеза про те, що засоби не однакові, охоплює всю можливу різницю в засобах. Альтернативна гіпотеза - «Різниця в засобах дорівнює , або , або , або , або123.5.1, ... "Ми можемо поставити довільно невелику різницю в засобах, і це буде відповідати альтернативній гіпотезі. І з довільно малою різницею, ймовірність, дана цим середнім, довільно близька до ймовірності з урахуванням нуля. Також, Альтернативна гіпотеза охоплює не лише можливість того, що параметри розподілів, такі як середнє значення, є різними, але й те, що існує абсолютно інше розподіл. Наприклад, альтернативна гіпотеза охоплює: "Два зразки завжди матимуть різницю в тому, що це є або рівно 1, або точно 0, з вірогідністю .5 для кожного ". Результати більш узгоджуються з тим, тоді вони з нульовим.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.