При проведенні t-тесту, чому б вважати за краще (або випробовувати) однакові відхилення, а не завжди використовувати наближення Велха df?


47

Схоже, коли виконується припущення про однорідність дисперсії, що результати тестування, регульованого Велчем, t-тесту та стандартного t-тесту приблизно однакові. Чому б просто не завжди використовувати регульований Welch t?

Відповіді:


33

Я хотів би виступити проти двох інших відповідей на основі статті (німецькою мовою) Кубінгера, Раша та Модера (2009) .

Вони стверджують, що ґрунтуються на "обширних" моделюваннях з розподілів, які відповідають або не відповідають припущенням, накладеним t-тестом, (нормальність та однорідність дисперсії), що тестири Welch виконують однаково добре, коли допущення виконуються (тобто, в основному, однакові вірогідність помилок альфа- та бета-версії), але перевершує t-тест, якщо припущення не виконуються, особливо з точки зору потужності. Тому вони рекомендують завжди використовувати тест на випробування, якщо розмір вибірки перевищує 30.

Як мета-коментар: Для людей, які цікавляться статистикою (як я, і, мабуть, більшість інших тут), аргумент, заснований на даних (як і мої), повинен принаймні вважати однаково аргументами виключно на теоретичних підставах (як інші тут).


Оновлення:
Після того, як ще раз подумати над цією темою, я знайшов дві подальші рекомендації, з яких новіша допомагає моїй думці. Подивіться на оригінальні документи (які, принаймні для мене, є у вільному доступі) щодо аргументацій, які призводять до цих рекомендацій.

Перша рекомендація виходить від Graeme D. Ruxton у 2006 році: " Якщо ви хочете порівняти центральну тенденцію 2 популяцій на основі вибірок неспоріднених даних, то t-тест з неоднаковою дисперсією завжди повинен використовуватися для переваги t-тесту Стьюдента або Манна-Уїтні U тест. "
в:
Ruxton, GD, 2006 нерівномірне дисперсія т-тест є недовантажено альтернативою т-тест Стьюдента і тест Mann-Whitney U . Бехав. Екол . 17, 688–690.

Друга (старша) рекомендація - від Coombs et al. (1996, стор. 148): " Підсумовуючи, незалежний зразок t-тесту є загальноприйнятним з точки зору контролю рівня помилок типу I за умови, що є достатньо великі зразки однакового розміру, навіть якщо порушення припущення про рівність сукупності порушено. Для нерівних однак великі зразки є бажаною альтернативою, яка не передбачає рівних варіацій популяції. Використовуйте тест Джеймса другого порядку, коли розподіли або симетричні, або нормальні короткохвості. Перспективними альтернативами є випробування підрізаних засобів Wilcox H та Yuen, які забезпечують більш широкий контроль рівня помилок типу I, ніж тест Велча або тест Джеймса, і мати більшу потужність, коли дані мають тривалий хід ". (наголос додано)
В:
Coombs WT, Algina J, Oltman D. 1996. Уніваріантні та багатоваріантні тести гіпотез омнібусів, вибрані для контролю рівня помилок типу I, коли відхилення чисельності населення не обов'язково рівні . Rev Educ Res 66: 137–79.


3
Метавідповідь: Добрий момент. Але ваші дані можуть поводитись не так, як у мене! :-)
whuber

Генрік, ви б не заперечували, якщо я редагую відповідь на: (1) змінити термінологію, зателефонувавши до тестів t-test і t-тесту Вельча (як я знайшов у більшості літератури); (2) включіть ще один документ, який пропонує це до обговорення: rips-irsp.com/article/10.5334/irsp.82 (він підкреслює упередженість, що виникає, коли ви вибираєте тести, засновані на тесті на однорідність Левене).
Бруно

13

Звичайно, можна викинути обидва тести і почати використовувати баєсовський t-тест (тест на співвідношення Савідж-Дікі), який може враховувати неоднакові та неоднакові відхилення, а найкраще - це дозволяє визначити кількісні докази на користь нульова гіпотеза (це означає, що більше немає старих розмов про "неприйняття")

Цей тест дуже простий (і швидкий) у виконанні, і є документ, який чітко пояснює читачам, незнайомим байєсівській статистиці, як ним користуватися, разом із сценарієм R. ви в основному можете просто вставити ваші дані, відправити команди на консоль R:

Wetzels, R., Raaijmakers, JGW, Jakab, E., & Wagenmakers, E.-J. (2009). Як кількісно оцінити підтримку і проти нульової гіпотези: Гнучка реалізація WinBUGS типового тесту Байеса за замовчуванням.

також є підручник для всього цього, із прикладом даних:

http://www.ruudwetzels.com/index.php?src=SDtest

Я знаю, що це не є прямою відповіддю на запитання, але я думав, що читачам може сподобатися мати цю приємну альтернативу

ура


8
завжди ці хлопці-байєси ...
Генрік,

3
Інша байєсівська альтернатива t-тесту - кращий (Байєсова оцінка замінює тест) Крушке. Більше інформації тут: indiana.edu/~kruschke/BEST . Інтернет-версія тут: sumsar.net/best_online .
Rasmus Bååth

7

Оскільки точні результати є кращими для наближення, а також уникайте випадкових випадків, коли наближення може призвести до іншого результату, ніж точний метод.

Метод Велча - не швидший спосіб зробити будь-який старий t-тест, це простежується наближення до інакше дуже важкої проблеми: як побудувати t-тест за неоднакових варіацій. Випадок, що має рівну дисперсію, добре зрозумілий, простий і точний, тому його слід використовувати завжди, коли це можливо.


6
Я думаю, що я схильний більше погоджуватися з Джоном Тукі - " Набагато краще приблизна відповідь на правильне запитання, яке часто є невиразним, ніж точна відповідь на неправильне запитання, яке завжди можна зробити точним ".
Glen_b

4
Сам t-тест на рівну дисперсію (Стьюдент) є лише (не зрозумілим) наближенням, коли відхилення вибіркової сукупності неоднакові. Тому, якщо не відомо, що відхилення сукупності рівні, краще використовувати наближення до правильного розподілу вибірки (Welch-Satterthwaite), ніж використовувати ідеально точний розподіл, який не стосується моделі даних.
whuber

4

Я можу придумати дві причини:

  1. Регулярний Т студент досить міцний до гетероцесдастичності, якщо розміри вибірки рівні.

  2. Якщо ви апріорно вірите, що дані є гомосептичними, то ви нічого не втрачаєте і можете отримати невелику потужність, використовуючи Studen'ts T замість T.

Однією з причин, яку я б не наводив, є те, що Т Студента є точним, а T Вельча - ні. ИМХО точність Т Стьюдента є академічної , тому що це тільки точним для нормально розподілених даних, і ніяких реальних даних не точно нормально розподілені. Я не можу придумати єдиної кількості, яку люди насправді вимірюють та аналізують статистично, де розподіл правдоподібно може мати підтримку всіх реальних чисел. Наприклад, у Всесвіті є лише стільки атомів, і деякі кількості не можуть бути негативними. Тому, використовуючи будь-який вид T-тесту на реальних даних, ви все одно зробите наближення.


2
(1) невірно, коли основні відхилення сукупності значно відрізняються. Як крайній випадок - щоб зрозуміти, чому це так, - розгляньте, що відбувається, коли одне населення взагалі не має різниці. Справді студент t порівнював би дані від іншої сукупності з постійними, але він вважає, що має свободу вдвічі більше. Помилка, яку вона робить, може бути порівнянна з просто використанням тесту Z.
whuber

Хоча це правда @whuber, це лише для дуже екстремальних випадків. Я просто дивився на різницю дисперсії 1e6: 1 і p ≈ .053. Так це може статися, але я все одно стверджую, що це досить міцно з рівними Н.
Джон

@John Коефіцієнт дисперсії 1e6: 1 величезний , незалежно від того, яким може бути . У цьому випадку студент може ввести в оману. ni
whuber

@whuber, я просто припускаю, що хоча ваш коментар вище технічно правдивий, виправлення Welch не є вирішенням проблеми, яку ви ставите як приклад, і навіть не дуже критично ставиться до надійності тесту з точки зору альфа-ставок (що зазвичай означає (1)). Як ви підказуєте, коли (екстремальна) неоднакова дисперсія - це проблема, у вас виникають інші проблеми, але це справді інша тема.
Джон

3

Той факт, що щось складніше зводиться до чогось менш складного, коли перевіряється деяке припущення, недостатньо, щоб відкинути більш простий метод.


4
Особливо, коли стурбовані студенти.
Метт Паркер

2

Я б став на протилежний погляд. Навіщо турбуватися з тестом Велча, коли стандартний непарний тест для студентів дає майже однакові результати. Я вивчав це питання деякий час назад, і я вивчив цілий спектр сценаріїв, намагаючись зруйнувати тест t і надати перевагу тесту Велча. Для цього я використав розміри зразків до 5 разів більше для однієї групи проти іншої. І я досліджував відхилення в 25 разів більше для однієї групи проти іншої. І це насправді не мало жодної матеріальної різниці. Неспарений t-тест все ще генерував діапазон значень p, майже однаковий тесту Велча.

Ви можете побачити мою роботу за наступним посиланням та зосередитись особливо на слайді 5 та 6.

http://www.slideshare.net/gaetanlion/unpaired-t-test-family


Вибачте, що ви відрізняєте між великою формулою вибірки та малою формулою вибірки? Ви обчислюєте відхилення, використовуючи формулу сукупності у великих вибірках, а не використовуючи вибіркову оцінку дисперсії популяції?
russellpierce

Непарний тест студента має дві формули. Велика формула вибірки застосовується до зразків з більш ніж 30 спостереженнями. Формула малого зразка застосовується до зразків з менш ніж 30 спостереженнями. Основна відмінність цих формул полягає в тому, як вони обчислюють об'єднану стандартну помилку. Формула малого зразка набагато складніша та контрсуєтна. І насправді це дуже мало значення. Я тестував це кілька разів. Тому я думаю, що більшість людей забули про цю відмінність. І вони в основному використовують велику формулу зразка.
Sympa

0

Це правда, що частотистські властивості тесту, виправленого Велчем, кращі, ніж звичайні Т-студенти, принаймні, для помилок. Я погоджуюся, що одне це досить гарний аргумент для тесту Велча. Однак я зазвичай неохоче рекомендую коригування Велча, оскільки його використання часто оманливе. Що, правда, не є критикою самого тесту.

Причиною, за якою я не рекомендую корекцію Вельха, є те, що вона не просто змінює ступеня свободи та подальший теоретичний розподіл, з якого виводиться значення p. Це робить тест непараметричним. Для виконання t-виправлення, виправленого Welch, все-таки об'єднується дисперсія, як ніби можна вважати рівну дисперсію, але потім змінює остаточну процедуру тестування, що означає, що рівну дисперсію не можна вважати, або що ви дбаєте лише про відмінність вибірки. Це робить його непараметричним тестом, оскільки об'єднана дисперсія вважається нерепрезентативною для населення, і ви визнали, що ви просто тестуєте свої спостережувані значення.

Само по собі в цьому немає нічого поганого. Однак я вважаю це оманливим, оскільки: а) зазвичай це не повідомляється з достатньою специфікою; і б) люди, які використовують його, як правило, думають про це взаємозамінно за допомогою t-тесту. Єдиний спосіб, коли я коли-небудь знаю, що це було зроблено в опублікованих статтях, це коли я бачу непарний DF для t-розподілу. Це був також єдиний спосіб, коли Рекстон (на який посилається у відповіді Генріка) міг сказати в огляді. На жаль, непараметричний характер тесту, виправленого Велчем, виникає, змінилися чи ні ступеня свободи (тобто навіть якщо вибіркові відхилення рівні). Але ця проблема звітування є симптоматичною щодо того, що більшість людей, які використовують корекцію Welch, не визнають, що ця зміна тесту відбулася.

Тому через це я вважаю, що якщо ви збираєтесь рекомендувати непараметричний тест, не використовуйте те, яке часто виявляється параметричним, або, принаймні, будете дуже зрозумілі, що ви робите. Офіційна назва тесту повинна бути непараметричним тестом Welch Corrected. Якби люди повідомили про це так, я був би набагато щасливішим з рекомендацією Генріка.


Я не зміг знайти жодної підтримки у вашій відповіді, чому тест Велча може бути "оманливим". Чи можете ви пояснити основу для цього?
качан

Можливо, мої правки з’ясували речі @whuber. Я мав би бути зрозумілим, що це не гарантовано, що він є оманливим, але часто є як користувачем тесту, так і читачем результатів тесту.
Джон

1
Дякую. Окрім питання звітування - який було б несправедливо охарактеризувати як помилку тесту! - Це, здається, зводиться до певного заперечення з вашого боку, що тест Вельча не є параметричним. Що може бути з цим? Ceteris paribus , що слід вважати перевагою, а не проблемою.
whuber

1
Це, як правило, не зрозуміло. Я відповідаю у відповіді, що сама по собі проблема не є, але більшість людей схильні ставитися до неї параметрично, що є помилкою. Я не думаю, що тут не можна обговорювати переваги чи витрати на непараметричне тестування. Крім того, це не було зазначено в потоці, і це може бути проблемою для багатьох людей. На відміну від двох наших класів введення статистики викладають його паралельно з t-тестом Стьюдента та просувають його, але мають цілий окремий розділ про непараметричні тести.
Джон

Чи можете ви уточнити, що ви маєте на увазі під "тестом робить непараметричним"?
Glen_b
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.