Що робити, коли засоби двох зразків суттєво відрізняються, але різниця здається занадто малою для значення


13

У мене є дві вибірки ( в обох випадках). Засоби відрізняються приблизно вдвічі збільшеною стд. дев. Отримане значення становить приблизно 10. Хоча це чудово знати, що я остаточно показав, що засоби не однакові, мені здається, що він керується великим n. Дивлячись на гістограми даних, я, звичайно, не відчуваю, що такі, як невелика p-величина, справді репрезентують дані, і якщо чесно, то не дуже комфортно цитувати їх. Я, мабуть, задаю неправильне запитання. Що я думаю: так, засоби різні, але чи це насправді має значення, оскільки розподіли мають суттєве перекриття?Тn70T

Це те, де баєсівське тестування корисне? Якщо так, з чого зручно почати, трохи гуглінгу не принесло нічого корисного, але я, можливо, не ставлю правильного питання. Якщо це неправильно, чи є хтось із пропозицій? Або це просто точка для обговорення на відміну від кількісного аналізу?


Я просто хочу додати до всіх інших відповідей, що ваше перше твердження неправильне: ви НЕ переконливо показали, що засоби різні . Р-значення t-тесту говорить про те, чи є ймовірність спостереження за вашими даними або більш екстремальними значеннями його маловероятна / з урахуванням нульової гіпотези (що для t-тесту - , тобто : { "Засоби рівні"}), що не означає, що засоби насправді різні . Крім того, я припускаю, що ви також провели F-тест для того, щоб перевірити рівність дисперсій, перш ніж робити t-тест об'єднаної дисперсії, правда? H 0μA=μBH0
Нестор

Ваше запитання дуже добре, оскільки воно містить важливу відмінність, і це показує, що ви насправді думаєте про свої дані, а не шукаєте зірок на статистичному виході та заявляєте про себе. Як зазначається у кількох відповідях, статистична значимість не є такою ж, як значуща . І коли ви подумаєте про це, вони не можуть бути: як би статистична процедура знала, що статистично значуща середня різниця 0,01 означає щось у полі A, але безглуздо мало в полі B?
Уейн

Справедливо кажучи, язик не був на місці, але коли значення p подібне до тих, що я отримую, я, як правило, не надто метушливий щодо слів. Я робив F-тест (і QQ-графік). Як кажуть, його близько до джазу.
Боулер

1
FWIW, якщо ваші засоби розділені на 2 SD, це здається мені досить великою різницею. Це, звичайно, залежатиме від вашої галузі, але це різниця, яку люди легко помітять з неозброєним оком (наприклад, середня висота чоловіків і жінок у віці 20-29 років відрізняється приблизно на 1,5 SD). IMO, якщо розподіли не взагалі не перетинатись, вам не потрібно робити аналіз даних; як мінімум, ш / - 6, буде <0,05, якщо розподіли не перетинаються. рNp
gung - Відновіть Моніку

Я погоджуюсь, що різниця велика, хоча і зовсім безчесна, як виявилося.
Боулер

Відповіді:


12

Нехай позначає середнє значення першої сукупності, а позначає середнє значення другої сукупності. Здається, що ви використовували двопробний test для перевірки, чи є . Значний результат означає, що , але різниця, мабуть, мала значення для вашої програми.μ 2 t μ 1 = μ 2 μ 1μ 2μ1μ2tμ1=μ2μ1μ2

Що ви стикалися, це той факт, що статистично значимі часто можуть бути чимось іншим, ніж значущим для програми . Хоча різниця може бути статистично значущою, вона все ще не може бути значимою .

Баєсівське тестування не вирішить цю проблему - ви все одно просто зробите висновок, що різниця існує.

Однак може бути вихід. Наприклад, для однобічної гіпотези ви можете вирішити, що якщо є одиниці більше, ніж то це буде значущою різницею, достатньо великою, щоб мати значення для вашої програми. Δ μ 2μ1Δμ2

У такому випадку ви перевірите, чи замість того, чи . -Статистика ( в припущенні , рівні дисперсії) буде в цьому випадку буде де - об'єднана оцінка стандартного відхилення. Згідно з нульовою гіпотезою, ця статистика розподіляється ступенів свободи.μ 1 - μ 2 = 0 t T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0t sptn1+n2-2

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Простим способом проведення цього тесту є відняття з ваших спостережень у першої сукупності, а потім проведення регулярного одностороннього двопробного -test.tΔt


8

Дійсно порівнювати декілька підходів, але не з метою вибору того, який сприятиме нашим бажанням / вірам.

Моя відповідь на ваше запитання: Можливо, два розподіли перетинаються, хоча вони мають різні засоби, що, здається, є вашим випадком (але нам потрібно буде переглянути ваші дані та контекст, щоб дати точнішу відповідь).

Я буду проілюструвати це, використовуючи пару підходів для порівняння звичайних засобів .

1. -тестt

Розглянемо два модельовані зразки розміром від та , тоді -значення приблизно як у вашому випадку (Див. Код R нижче).N ( 10 , 1 ) N ( 12 , 1 ) t 1070N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Однак щільність показує значне перекриття. Але пам’ятайте, що ви перевіряєте гіпотезу про засоби, які в даному випадку явно відрізняються, але через значення відбувається перекриття густин.σ

введіть тут опис зображення

2. Імовірність профілюμ

Для визначення ймовірності та ймовірності профілю див. 1 і 2 .

У цьому випадку ймовірність профілю вибірки розміру та середньої вибірки просто .n ˉ x R p ( μ ) = exp [ - n ( ˉ x - μ ) 2 ]μnx¯Rp(μ)=exp[n(x¯μ)2]

Для модельованих даних їх можна обчислити в R наступним чином

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

Як бачите, вірогідність інтервалів та не перетинаються на будь-якому розумному рівні.μ 2μ1μ2

3. Задня частина за допомогою Джефріса доμ

Розглянемо Джеффріс до з(μ,σ)

π(μ,σ)1σ2

Задня частина для кожного набору даних може бути обчислена наступним чиномμ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Знову-таки, інтервали довіри до засобів не перетинаються на жодному розумному рівні.

На закінчення можна побачити, як усі ці підходи вказують на значну різницю засобів (що є основним інтересом), незважаючи на перекриття розподілів.

Інший підхід порівняння

Судячи з ваших занепокоєнь щодо перекриття густин, інша кількість інтересу може бути , ймовірність того, що перша випадкова величина менша, ніж друга змінна. Цю кількість можна оцінити непараметрично, як у цій відповіді . Зверніть увагу, що припущень щодо розподілу тут немає. Для модельованих даних цей оцінювач становить , показуючи деяке перекриття в цьому сенсі, тоді як засоби суттєво відрізняються. Будь ласка, подивіться на код R, показаний нижче.0,8823825P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Я сподіваюся, що це допомагає.


2
(+1) Дякую за дійсно корисну відповідь про байзійські методи. Також посилання P (X <Y) відповідає на інше питання, про яке я цікавився в тому ж аналізі.
Боулер

7

Відповідь на правильне запитання

ОК, засоби різні, але чи це насправді має значення, оскільки розподіли мають суттєве перекриття?

Будь-який тест, який запитує, чи відрізняються засоби групи, коли він працює правильно, підкаже, чи відрізняються засоби. Це не скаже вам, що розповсюдження самих даних є різними, оскільки це вже інше питання. Це питання, безумовно, залежить від того, чи відрізняються засоби, але також і від багатьох інших речей, які можна (неповно) узагальнити як дисперсія, перекос та куртоз.

Ви правильно зазначаєте, що впевненість у тому, де знаходяться кошти, залежить від кількості даних, які ви повинні їх оцінити, тому наявність більшої кількості даних дозволить виявити середні відмінності в більш майже перекриваються дистрибутивах. Але вам цікаво, чи

наприклад, невелике р-значення дійсно є репрезентативним даними

Дійсно, це не принаймні безпосередньо. І це за задумом. Це є репрезентативним (приблизно кажучи) впевненістю, що певна пара вибіркової статистики даних (а не самі дані) є різною.

Якщо ви хотіли представити самі дані у формальніший спосіб, ніж просто показувати гістограми та моменти тестування їх, то, можливо, пара графіків щільності може бути корисною. Це, скоріше, залежить від аргументу, який ви використовуєте для випробування.

Байєсівська версія

У всіх цих відношеннях байєсівські відмінності "тести" та Т-тести поводяться однаково, оскільки вони намагаються зробити те саме. Єдині перевагами я можу думати для використання підходу байєсівського є: а) що це буде легко зробити тест , що дозволяє , можливо , різні відхилення для кожної групи, і б) що основна увага буде приділена оцінкою ймовірного розміру різниці в засобах а не знаходження р-значення для якогось тесту різниці. Однак, ці переваги є незначними: наприклад, в b) ви завжди можете повідомити про довірчий інтервал для різниці.

Вище цитати над «тестами» є навмисними. Безумовно, можна провести тестування гіпотез Байеса, і це роблять люди. Однак я б припустив, що порівняльна перевага підходу полягає у фокусуванні на побудові правдоподібної моделі даних та передачі її важливих аспектів із відповідними рівнями невизначеності.


3

Перш за все, це не проблема приєднатися до тестування часто. Проблема полягає в нульовій гіпотезі, що засоби точно рівні. Тому, якщо сукупність відрізняється за допомогою будь-якої невеликої кількості і розмір вибірки є досить великим, шанс відкинути цю нульову гіпотезу дуже високий. Тому р-значення для вашого тесту виявилося дуже малим. Винуватець - вибір нульової гіпотези. Виберіть d> 0 і візьмемо нульову гіпотезу про те, що середні значення відрізняються на менше d в абсолютній величині менше, ніж d. Ви вибираєте d так, щоб реальна різниця мала бути задовільно великою, щоб відхилити. Ваша проблема згасає. Байєсівське тестування не вирішує вашу проблему, якщо ви наполягаєте на нульовій гіпотезі точної рівності засобів.


Я писав свою відповідь одночасно з двома іншими.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.