Схоже, коли виконується припущення про однорідність дисперсії, що результати тестування, регульованого Велчем, t-тесту та стандартного t-тесту приблизно однакові. Чому б просто не завжди використовувати регульований Welch t?
Схоже, коли виконується припущення про однорідність дисперсії, що результати тестування, регульованого Велчем, t-тесту та стандартного t-тесту приблизно однакові. Чому б просто не завжди використовувати регульований Welch t?
Відповіді:
Я хотів би виступити проти двох інших відповідей на основі статті (німецькою мовою) Кубінгера, Раша та Модера (2009) .
Вони стверджують, що ґрунтуються на "обширних" моделюваннях з розподілів, які відповідають або не відповідають припущенням, накладеним t-тестом, (нормальність та однорідність дисперсії), що тестири Welch виконують однаково добре, коли допущення виконуються (тобто, в основному, однакові вірогідність помилок альфа- та бета-версії), але перевершує t-тест, якщо припущення не виконуються, особливо з точки зору потужності. Тому вони рекомендують завжди використовувати тест на випробування, якщо розмір вибірки перевищує 30.
Як мета-коментар: Для людей, які цікавляться статистикою (як я, і, мабуть, більшість інших тут), аргумент, заснований на даних (як і мої), повинен принаймні вважати однаково аргументами виключно на теоретичних підставах (як інші тут).
Оновлення:
Після того, як ще раз подумати над цією темою, я знайшов дві подальші рекомендації, з яких новіша допомагає моїй думці. Подивіться на оригінальні документи (які, принаймні для мене, є у вільному доступі) щодо аргументацій, які призводять до цих рекомендацій.
Перша рекомендація виходить від Graeme D. Ruxton у 2006 році: " Якщо ви хочете порівняти центральну тенденцію 2 популяцій на основі вибірок неспоріднених даних, то t-тест з неоднаковою дисперсією завжди повинен використовуватися для переваги t-тесту Стьюдента або Манна-Уїтні U тест. "
в:
Ruxton, GD, 2006 нерівномірне дисперсія т-тест є недовантажено альтернативою т-тест Стьюдента і тест Mann-Whitney U .
Бехав. Екол . 17, 688–690.
Друга (старша) рекомендація - від Coombs et al. (1996, стор. 148): " Підсумовуючи, незалежний зразок t-тесту є загальноприйнятним з точки зору контролю рівня помилок типу I за умови, що є достатньо великі зразки однакового розміру, навіть якщо порушення припущення про рівність сукупності порушено. Для нерівних однак великі зразки є бажаною альтернативою, яка не передбачає рівних варіацій популяції. Використовуйте тест Джеймса другого порядку, коли розподіли або симетричні, або нормальні короткохвості. Перспективними альтернативами є випробування підрізаних засобів Wilcox H та Yuen, які забезпечують більш широкий контроль рівня помилок типу I, ніж тест Велча або тест Джеймса, і мати більшу потужність, коли дані мають тривалий хід ". (наголос додано)
В:
Coombs WT, Algina J, Oltman D. 1996. Уніваріантні та багатоваріантні тести гіпотез омнібусів, вибрані для контролю рівня помилок типу I, коли відхилення чисельності населення не обов'язково рівні . Rev Educ Res 66: 137–79.
Звичайно, можна викинути обидва тести і почати використовувати баєсовський t-тест (тест на співвідношення Савідж-Дікі), який може враховувати неоднакові та неоднакові відхилення, а найкраще - це дозволяє визначити кількісні докази на користь нульова гіпотеза (це означає, що більше немає старих розмов про "неприйняття")
Цей тест дуже простий (і швидкий) у виконанні, і є документ, який чітко пояснює читачам, незнайомим байєсівській статистиці, як ним користуватися, разом із сценарієм R. ви в основному можете просто вставити ваші дані, відправити команди на консоль R:
також є підручник для всього цього, із прикладом даних:
http://www.ruudwetzels.com/index.php?src=SDtest
Я знаю, що це не є прямою відповіддю на запитання, але я думав, що читачам може сподобатися мати цю приємну альтернативу
ура
Оскільки точні результати є кращими для наближення, а також уникайте випадкових випадків, коли наближення може призвести до іншого результату, ніж точний метод.
Метод Велча - не швидший спосіб зробити будь-який старий t-тест, це простежується наближення до інакше дуже важкої проблеми: як побудувати t-тест за неоднакових варіацій. Випадок, що має рівну дисперсію, добре зрозумілий, простий і точний, тому його слід використовувати завжди, коли це можливо.
Я можу придумати дві причини:
Регулярний Т студент досить міцний до гетероцесдастичності, якщо розміри вибірки рівні.
Якщо ви апріорно вірите, що дані є гомосептичними, то ви нічого не втрачаєте і можете отримати невелику потужність, використовуючи Studen'ts T замість T.
Однією з причин, яку я б не наводив, є те, що Т Студента є точним, а T Вельча - ні. ИМХО точність Т Стьюдента є академічної , тому що це тільки точним для нормально розподілених даних, і ніяких реальних даних не точно нормально розподілені. Я не можу придумати єдиної кількості, яку люди насправді вимірюють та аналізують статистично, де розподіл правдоподібно може мати підтримку всіх реальних чисел. Наприклад, у Всесвіті є лише стільки атомів, і деякі кількості не можуть бути негативними. Тому, використовуючи будь-який вид T-тесту на реальних даних, ви все одно зробите наближення.
Той факт, що щось складніше зводиться до чогось менш складного, коли перевіряється деяке припущення, недостатньо, щоб відкинути більш простий метод.
Я б став на протилежний погляд. Навіщо турбуватися з тестом Велча, коли стандартний непарний тест для студентів дає майже однакові результати. Я вивчав це питання деякий час назад, і я вивчив цілий спектр сценаріїв, намагаючись зруйнувати тест t і надати перевагу тесту Велча. Для цього я використав розміри зразків до 5 разів більше для однієї групи проти іншої. І я досліджував відхилення в 25 разів більше для однієї групи проти іншої. І це насправді не мало жодної матеріальної різниці. Неспарений t-тест все ще генерував діапазон значень p, майже однаковий тесту Велча.
Ви можете побачити мою роботу за наступним посиланням та зосередитись особливо на слайді 5 та 6.
Це правда, що частотистські властивості тесту, виправленого Велчем, кращі, ніж звичайні Т-студенти, принаймні, для помилок. Я погоджуюся, що одне це досить гарний аргумент для тесту Велча. Однак я зазвичай неохоче рекомендую коригування Велча, оскільки його використання часто оманливе. Що, правда, не є критикою самого тесту.
Причиною, за якою я не рекомендую корекцію Вельха, є те, що вона не просто змінює ступеня свободи та подальший теоретичний розподіл, з якого виводиться значення p. Це робить тест непараметричним. Для виконання t-виправлення, виправленого Welch, все-таки об'єднується дисперсія, як ніби можна вважати рівну дисперсію, але потім змінює остаточну процедуру тестування, що означає, що рівну дисперсію не можна вважати, або що ви дбаєте лише про відмінність вибірки. Це робить його непараметричним тестом, оскільки об'єднана дисперсія вважається нерепрезентативною для населення, і ви визнали, що ви просто тестуєте свої спостережувані значення.
Само по собі в цьому немає нічого поганого. Однак я вважаю це оманливим, оскільки: а) зазвичай це не повідомляється з достатньою специфікою; і б) люди, які використовують його, як правило, думають про це взаємозамінно за допомогою t-тесту. Єдиний спосіб, коли я коли-небудь знаю, що це було зроблено в опублікованих статтях, це коли я бачу непарний DF для t-розподілу. Це був також єдиний спосіб, коли Рекстон (на який посилається у відповіді Генріка) міг сказати в огляді. На жаль, непараметричний характер тесту, виправленого Велчем, виникає, змінилися чи ні ступеня свободи (тобто навіть якщо вибіркові відхилення рівні). Але ця проблема звітування є симптоматичною щодо того, що більшість людей, які використовують корекцію Welch, не визнають, що ця зміна тесту відбулася.
Тому через це я вважаю, що якщо ви збираєтесь рекомендувати непараметричний тест, не використовуйте те, яке часто виявляється параметричним, або, принаймні, будете дуже зрозумілі, що ви робите. Офіційна назва тесту повинна бути непараметричним тестом Welch Corrected. Якби люди повідомили про це так, я був би набагато щасливішим з рекомендацією Генріка.