Спарений та непарний тест


20

Припустимо, у мене 20 мишей. Я спаюю мишей якимось чином, щоб я отримав 10 пар. Для цього питання це може бути випадкове сполучення, АБО це може бути розумне сполучення, як, наприклад, спроба з’єднати мишей з того ж посліду, тієї ж статі, з подібною вагою, АБО це може бути навмисне дурне сполучення, як намагаючись спарити мишей з вагами настільки ж нерівними, як це можливо. Потім я використовую випадкові числа, щоб призначити одну мишу в кожній парі контрольній групі, а іншу мишу групі, яку слід лікувати. Зараз я роблю експеримент, обробляючи тільки мишей, які піддаються лікуванню, але в іншому випадку не звертаю жодної уваги на щойно зроблені домовленості.

Якщо доводиться аналізувати результати, можна використовувати або непарне тестування, або парне t-тестування. Яким чином, якщо такі є, відповіді будуть різними? (Мені в основному цікаві систематичні відмінності будь-якого статистичного параметра, який потрібно оцінити.)

Причиною цього я є те, що документ, до якого я нещодавно займався, був підданий критиці біологом за те, що він використав парний t-тест, а не непарний тест. Звичайно, в реальному експерименті ситуація була не такою екстремальною, як ситуація, яку я замальовував, і були, на мою думку, вагомі причини спарювання. Але біолог не погодився.

Мені здається, що неможливо неправильно поліпшити статистичну значущість (зменшити p-значення) за обставин, які я замальовував, використовуючи парний t-тест, а не непарний тест, навіть якщо це невідповідне парування. Однак це може погіршити статистичну значимість, якщо миші були погано спарені. Чи це правильно?

Відповіді:


23

Я погоджуюсь з пунктами, які висловлюють і Франк, і Пітер, але я думаю, що існує проста формула, яка потрапляє в основу цього питання і, можливо, варто, щоб ОП розглядала.

Нехай і - дві випадкові величини, кореляція яких невідома.YXY

НехайZ=XY

Яка дисперсія ?Z

Ось проста формула: Що робити, якщо (тобто і позитивно співвідносяться)?Cov ( X , Y ) > 0 X Y

Var(Z)=Var(X)+Var(Y)2Cov(X,Y).
Cov(X,Y)>0XY

Тодіt X i A Y i AVar(Z)<Var(X)+Var(Y). У цьому випадку, якщо створення пари відбувається через позитивну кореляцію, наприклад, коли ви маєте справу з одним і тим же предметом до і після втручання, це допомагає, оскільки незалежна парна різниця має меншу дисперсію, ніж дисперсія, яку ви отримаєте для непарного випадку. Метод зменшив дисперсію. Тест є більш потужним. Це можна драматично показати за допомогою циклічних даних. Я побачив приклад у книзі, де вони хотіли побачити, чи температура у Вашингтоні вище, ніж у Нью-Йорку. Тому вони взяли середньомісячну температуру в обох містах, скажімо, 2 роки. Звичайно, існує велика різниця протягом року через чотири сезони. Цей варіант є занадто великим для неспарного t-тесту, щоб виявити різницю. Однак спарювання на основі того ж місяця того ж року усуває цей сезонний ефект і парнеt -тест чітко показав, що середня температура в постійному струмі, як правило, вище, ніж у Нью-Йорку. (температура в Нью-Йорку в місяці ) і (температура в постійному струмі в місяці ) позитивно корелюються, оскільки сезони однакові в Нью-Йорку та Південній Кореї, а міста досить близькі, що вони часто відчувають однакові погодні системи, що впливають на температуру . DC може бути трохи тепліше, оскільки він знаходиться на південь.XiAYiА

Зауважимо, що чим більше коваріація чи кореляція, тим більше зменшення дисперсії.

Тепер припустимо, що від'ємний.Ков(Х,Y)

Тоді . Тепер спарювання буде гірше, ніж не створення пари, оскільки дисперсія насправді збільшується!Вар(Z)>Вар(Х)+Вар(Y)

Коли і не співвідносяться, то, мабуть, не має значення, який метод ви використовуєте. Випадкова ситуація пари Петра подібна до цієї ситуації.YХY


3
Майкл, оскільки "<" і ">" мають особливі значення на веб-сторінках, щоб уникнути великих фрагментів тексту просто зникнути з перегляду, вам важливо використовувати розмітку для них у рівняннях (коди "\ lt "і" \ gt "відповідно). Я позначив два рівняння, які спричинили цю проблему для вас. Надалі, будь ласка, прочитайте те, що ви розміщуєте одразу після публікації, щоб переконатися, що люди бачать те, що ви думали, що вони побачать, а потім сміливо позначте свою публікацію для уваги модератора, якщо є якась проблема з розміткою. TEХ
whuber

@whuber Дякую Я, як правило, перевіряю під час і після публікації, оскільки я вважаю, що я багато псую рівнянь, особливо підписуючись. Пропустити цей незвично і, мабуть, сталося тому, що це був довгий пост, і я просто недбало продовжував щось інше, що хотів чи потребував. Іноді телефонний дзвінок мене відволікає, і я забуваю перевірити. Щодо спеціальних символів, які змушують текст зникати у публікації, я це зауважив. Я думаю, що просте рішення - переконатися, що ви залишите пробіл після символу. Я думаю, що це працювало для мене в минулому.
Майкл Р. Черник

+1, дійсно на місці. Зауважте, що якщо & ідеально некорельовані у вашому зразку , . Y Var ( Z ) = Var ( X ) + Var ( Y )ХYVar(Z)=Var(X)+Var(Y)
gung - Відновіть Моніку

@MichaelChernick У випадку, коли Cov (X, Y) <0, у мене виникає питання: Якщо моя мета полягає в тому, щоб зробити висновок E [X] -E [Y] з мого експерименту, то ВИНАГО ДУМИ я провів парне дослідження, коли я Проаналізувавши мої дані, я все ще можу ПОПЕРЕДНІТЬ, що результат мого експерименту - це реалізація НЕПАРАТНОГО рандомизованого експерименту. Чи можу я це зробити? Тому що якщо ви справді зробили непарний випадковий експеримент, ви можете буквально отримати той же результат. Тоді я можу просто взяти середнє значення для кожної групи (ігнорувати парні речі) та взяти різницю середнього значення для двох груп. Це неупереджений оцінювач E [Z]. Для варіації мого оцінювача я просто використовую ...
KevinKim

@MichaelChernick вибіркова дисперсія групи X та групи Y та підсумуйте їх
KevinKim

7

Замість того, щоб поєднати, можливо, краще зрозуміти основні моделі даних. Якщо спарювання робиться для боротьби з неконтрольованою неоднорідністю, зазвичай так (за винятком подвійних досліджень) спарювання лише частково контролює це джерело мінливості, і багаторазова регресія зробила б краще. Це пояснюється тим, що зіставлення безперервних змінних часто призводить до залишкової змінності через неможливість точного зіставлення таких змінних.


2
Якщо ми всі повинні робити регресію, чому книги з експериментального дизайну, як книга Девіда Кокса, підкреслюють важливість сполучення чи групування в біологічних експериментах? Спарювання дозволяє уникнути прихованого припущення про лінійну залежність, пов'язану з регресією. Але, можливо, є й інші причини: хто ??
Девід Епштейн

6

Два тести (парні та непарні) задають різні запитання, щоб вони могли отримати різні відповіді. Правильне поєднання майже завжди є більш потужним, ніж непарне - це справді сенс сполучення. Отже, оскільки ви говорите, що спарювання є правильним, ймовірно, що значення p для вашого парного тесту є нижчим, ніж для тих же непарних даних. Можна, звичайно, зробити і те, і інше.

Тому відповідь на вашу дилему є предметною, а не статистичною. Правильно ваше сполучення?

Чи можете ви отримати більш значущий результат від випадкового спарювання, ніж від непарного тесту? Подивимось:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Так, ви можете, хоча тут різниця дуже мала, в парних було нижче p. Я запускав цей код кілька разів. Не дивно, що іноді один p ​​нижчий, інший інший, але різниця була невеликою у всіх випадках. Однак я впевнений, що в деяких ситуаціях різниця в значеннях р може бути великою.


Дякую за відповідь, але в моєму питанні було задано систематичні розбіжності. Очевидно, що в довгостроковій перспективі x-y та x-y періодично виглядають так, ніби вони дуже добре поєднані, а іноді так, ніби вони навмисно погано спарені. Безумовно, це статистичний питання про те, чи, обираючи x і y випадковим чином, розподіл p-значень однаковий у двох тестах. Я вважаю, що тому, хто знає більше теоретичної статистики, не повинно бути складним, щоб насправді обчислити два теоретичні розподіли p-значень. Я здогадуюсь, що вони однакові.
Девід Епштейн

У фактичному випадку, в якому я брав участь, значення p для неспарених становило близько .04 та для парних .001. На думку критичного біолога, нам слід навести .04. На мою думку, поліпшення p-значення сильно свідчить про те, що наше сполучення було дійсним. Я стверджую, що в цій статистиці є об'єктивне питання з об'єктивною відповіддю, і що це не лише питання хорошого біологічного судження щодо справедливості конкретного спарювання --- останнє, здається, є думкою Петра Флома та критичний біолог.
Девід Епштейн

1
Я думаю, що статистика розповідає історію. Обидва результати повинні бути оприлюднені, але поки дані коректні і кореляцію можна пояснити, парний тест є більш точним, оскільки він враховує кореляцію.
Майкл Р. Черник

5

Зараз я набагато краще розумію, що мене хвилювало щодо парних проти непарних Т-тестів та пов'язаних з ними р-значень. Дізнатися це було цікавою подорожжю, і по дорозі було багато сюрпризів. Одне здивування стало наслідком розслідування внеску Майкла. Це безперечно з точки зору практичних порад. Більше того, він говорить те, в що я думаю, що практично всі статистики вірять, і у нього є кілька підказок, щоб підтвердити це. Однак, як фрагмент теорії, це не є буквально правильним. Я виявив це, опрацювавши формули для p-значень, а потім ретельно продумав, як використовувати формули, щоб привести до зустрічних прикладів. Я математик за навчанням, а зустрічний приклад - це "зустрічний приклад математика". Це не те, що ви зіткнулися б у практичній статистиці, те, про що я намагався дізнатися, коли я задавав своє оригінальне запитання.

Ось R-код, який дає зустрічний приклад:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Зверніть увагу на наступні особливості: X і Y - це два 10-кортежі, різниця яких величезна і майже майже постійна. Для багатьох значущих показників співвідношення становить 1.000 .... Значення р для непарного тесту приблизно в 10 ^ 40 разів менше, ніж значення р для парного тесту. Таким чином, це суперечить рахунку Майкла, за умови, що він читає його рахунок буквально, в математичному стилі. Тут закінчується частина моєї відповіді, що стосується відповіді Майкла.


Ось думки, підказані відповіддю Петра. Під час обговорення мого первісного питання я припустив у коментарі, що два конкретні розподіли значень р, які звучать по-різному, насправді однакові. Зараз я можу це довести. Що важливіше, це те, що доказ розкриває фундаментальний характер p-значення, настільки фундаментального, що жоден текст (який я натрапив) не намагається пояснити. Можливо, всі професійні статистики знають секрет, але мені, визначення p-значення, завжди здавалося дивним і штучним. Перш ніж роздати секрет статистику, дозвольте мені уточнити питання.

Нехай і вибирають випадковим чином і незалежно два випадкових пар з деякого нормального розподілу. Є два способи отримання р-значення з цього вибору. Один - використовувати непарний t-тест, а другий - використовувати парний t-тест. Моя здогадка полягала в тому, що розподіл p-значень, які ви отримуєте, є однаковим у двох випадках. Коли я вперше почав думати про це, я вирішив, що ця гіпотеза була нерозумною і помилковою: тест непарного пов'язується з t-статистикою на ступеня свободи, а парний тест - на t- статистика наn 2 ( n - 1 ) n - 1н>1н2(н-1)н-1ступенів свободи. Ці два розподіли різні, тож як на землі можуть бути пов'язані розподіли p-значень однакові? Лише після багато подальших роздумів я зрозумів, що це очевидне відхилення моєї гіпотези було надто пристойним.

Відповідь випливає з наступних міркувань. Припустимо, - безперервний pdf (тобто його інтеграл має значення перше). Зміна координат перетворює пов'язаний розподіл в рівномірний розподіл на . Формула - і це багато пояснюється у багатьох текстах. Що тексти не вказують у контексті p-значень, це те, що саме така формула дає p-значення з t-статистики, колиf:(0,)(0,)[0,1]

p=tf(s)ds
f- pdf для t-дистрибутива. (Я намагаюся тримати дискусію якомога простішою, бо це справді просто. Повніше обговорення розглядало б односторонні та двосторонні тести трохи по-різному, можуть виникнути фактори 2, а t-статистика може лежати в замість . Я опускаю все це безладдя.)(,)[0,)

Точно така ж дискусія застосовується і при знаходженні р-значення, пов'язаного з будь-яким з інших стандартних розподілів у статистиці. Ще раз, якщо дані розподіляються випадковим чином (на цей раз за деяким різним розподілом), то отримані p-значення розподіляться рівномірно в .[0,1]

Як це стосується наших парних та непарних тестів? Справа в парному t-тесті, з вибірками, обраними незалежно та випадковим чином, як у моєму коді вище, значення t дійсно слідує за t-розподілом (з ступенем свободи). Отже, p-значення, отримані в результаті повторення вибору X і Y, багато разів слідують за рівномірним розподілом на . Те саме стосується непарного t-тесту, хоча цього разу t-розподіл має ступеня свободи. Тим не менш, p-значення, що призводять, також мають рівномірний розподіл на , за загальним аргументом, який я наводив вище. Якщо вищевказаний код Пітера застосовується для визначення p-значень, то ми отримуємо два різних методики виведення випадкової вибірки з рівномірного розподілу на[ 0 , 1 ] 2 ( n - 1 ) [ 0 , 1 ] [ 0 , 1 ]n1[0,1]2(n1)[0,1][0,1] . Однак обидві відповіді не є незалежними.


Я не думаю, що значення p має жодне таємниче значення для цього. Деяким людям важко з цим. Це ймовірність спостерігати значення як екстремальне або більш екстремальне, ніж те, що було насправді, коли нульова гіпотеза - ІСТИНА. Я думаю, ви мали це право в одній із своїх формул. Думаю, ви заявили, що р-значення розподілені рівномірно. Так, я згоден з цим, коли нульова гіпотеза є істинною. Майте на увазі, що з вашим t тестом нульова гіпотеза може бути неправдою. Тоді р-значення неоднакове. Він повинен бути зосереджений ближче до 0.
Майкл Р. Черник

По-друге, мова йде про дві різні тестові статистики. Один заснований на поєднанні, а інший - не у вашому прикладі. Незалежно від того, я згадував це у своїй відповіді чи ні, тест непарного t має центральний розподіл t з 2n-2 ступенями свободи, тоді як відповідний розподіл t для парного t тесту має n-1 ступінь свободи. Тож той з більшою кількістю ступенів свободи ближче до звичайного нормального розподілу, ніж інший. Це має значення, коли ви застосовуєте ці тести до реальних даних? Ні! Не тоді, коли n є досить великим.
Майкл Р. Черник

Як бічне зауваження, обмеження парного тесту вимагає рівного розміру вибірки, який у вас повинен бути, якщо всі дані можуть бути сполучені. Але непарний тест справедливий при неоднакових розмірах вибірки. Отже, загалом тест непарного має n + m-2 ступеня свободи.
Майкл Р. Черник

Ваша відповідь довга і абстрактна, і я намагався пройти її, але не зрозумів контрприкладу. Я просто не бачу, де ви враховуєте нульову гіпотезу та реальні дані. Спостережуване p-значення є інтегралом відповідного розподілу t для тестової статистики з урахуванням даних. Ви порівнюєте ці числа для двох t-розподілів і того ж загального набору даних. Якщо ви погоджуєтесь із спостережуваними даними, ці рівномірні розподіли не грають ніякої ролі. Мені шкода, але я не бачу, що ваша відповідь справді відповідає на ваше запитання.
Майкл Р. Черник

Майкл: просто сконцентруйтесь на R-коді, який я дав. Пробігати потрібно лише секунду. Нульова гіпотеза полягає в тому, що X і Y походять від одного і того ж нормального розподілу, що, звичайно, в моєму випадку дико помилкове. У моєму прикладі Cov (X, Y)> 0, і тим не менше непарний тест надає більшого значення, ніж тест для парних.
Девід Епштейн

1

Я б запропонував іншу перспективу. Часто спарювання робиться, щоб зменшити упередженість. Припустимо, вас цікавить, чи вплив Е є фактором ризику для постійного результату Y. Для кожного суб'єкта E + ви отримуєте відповідність віку та статі, хто є E-. Тепер ми могли б зробити парний t-тест або непарний t-тест. Думаю, нам слід пояснити відповідність явно і провести парний тест. Більш принципово в тому, що він враховує дизайн. Чи слід брати до уваги відповідність при аналізі, це питання компромісного зміщення. Облік відповідності в аналізі забезпечує більший захист від упередженості, але може збільшити дисперсію. Робити непарний тест може бути більш ефективним, але це не забезпечить захист від упередженості.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.