T-тест незалежних зразків: Чи дійсно потрібно нормально розподіляти дані для великих розмірів вибірки?


13

Скажімо, я хочу перевірити, чи мають два незалежні зразки різні засоби. Я знаю, що базовий розподіл не є нормальним .

Якщо я правильно розумію, моя тестова статистика - це середнє значення , а для достатньо великих розмірів вибірки середнє значення повинно стати нормально розподіленим, навіть якщо вибірки не є. Отже, тест на параметричну значимість повинен бути дійсним у цьому випадку, правда? Я прочитав суперечливу та заплутану інформацію з цього приводу, тому вдячний за певне підтвердження (або пояснення, чому я помиляюся).

Крім того, я читав, що для великих розмірів вибірки я повинен використовувати z-статистику замість t-статистики. Але на практиці t-розподіл буде просто збігатися до нормального розподілу, і дві статистичні дані повинні бути однаковими, ні?

Правка : Нижче наведено деякі джерела, що описують z-тест. Вони обидва заявляють, що населення має бути нормально розподілене:

Тут сказано: "Незалежно від типу використовуваного Z-тесту, передбачається, що популяції, з яких беруть зразки, є нормальними". І тут вимоги до z-тесту перелічені як "Дві нормально розподілені, але незалежні сукупності, σ відомо".


Те, що ви говорите, має сенс. Ви використовуєте центральну граничну теорему, щоб припустити нормальність розподілу засобів вибірки. Крім того, ви використовуєте t-тест, оскільки у вас немає дисперсії популяції, і ви оцінюєте його на основі вибіркової дисперсії. Але чи можете ви зв’язати чи опублікувати будь-яке з цих конфліктних джерел?
Антоні Пареллада

Спасибі за Вашу відповідь! Ось, наприклад, вимоги до z-тесту перелічені як "Дві нормально розподілені, але незалежні сукупності, σ відоме", тому вони говорять про розподіл населення, а не про те, що це неправильно?
Ліза

@AntoniParellada Я включив деякі джерела в оригінальний пост!
Ліза


Якщо початкові групи населення знають, що це нормально, тоді у нас ідеальна, незаперечна ситуація. Однак CLT часто є, особливо у великих зразках, щоб уникнути, залежно від цього дуже високого порядку, зазначеного на вашому зв'язаному папері.
Антоні Пареллада

Відповіді:


7

Я думаю, це звичайне непорозуміння CLT. Не тільки CLT не має нічого спільного із збереженням помилки типу II (про яку тут ніхто не згадував), але й часто не застосовується, коли потрібно оцінити відхилення чисельності. Дисперсія вибірки може бути дуже далекою від масштабованого розподілу чи-квадрата, коли дані не гауссові, тому CLT може не застосовуватися навіть тоді, коли розмір вибірки перевищує десятки тисяч. Для багатьох розповсюджень SD не є навіть хорошим показником дисперсності.

Щоб реально використовувати CLT, одна з двох речей повинна бути істинною: (1) вибіркове стандартне відхилення працює як міра дисперсії для справжнього невідомого розподілу або (2) відоме справжнє стандартне відхилення сукупності. Це дуже часто не так. І приклад n = 20 000, який є занадто малим для того, щоб CLT "працював", наводиться з нанесенням зразків з лонормального розподілу, як обговорювалося в інших місцях на цьому сайті.

Стандартне відхилення вибірки "працює" як міра дисперсії, якщо, наприклад, розподіл симетричний і не має хвостів, важчих за розподіл Гаусса.

Я не хочу покладатися на CLT для будь-якого свого аналізу.


3
У CLT може бути трохи червона оселедець. Часто може траплятися так, що середнє значення вибірки має рішуче ненормальний розподіл, а вибіркова SD має виразну форму не-чі, але, тим не менш, t-статистика корисно наближається розподілом Стьюдента (частково через залежність між цими двома) статистика). Чи це так, слід оцінити в будь-якій ситуації. Однак, оскільки CLT стверджує мало про кінцеві вибірки (і не говорить про них абсолютно нічого кількісного ), його виклик на підтримку розподільних припущень зазвичай недійсний.
whuber

Було б справедливо сказати, що ми обговорюємо (і вивчаємо в моєму випадку) процедуру (порівнюючи два вибіркові засоби з невідомих розподілів з t-тестом), яка виконується щоденно (а можливо, безглуздо) щодня всюди, хоча її виправдання може бути слабким? І чи є на практиці використання CLT, що було б допустимо / прийнятно, навіть якщо не ідеально?
Антоні Пареллада

-Статистика дуже часто має розподіл, яке дуже далеко від розподілу , коли дані надходять з негаусових розподілу. І так, я б сказав, що обгрунтування використання -test слабше, ніж думає більшість практиків. Тому я віддаю перевагу напівпараметричним та непараметричним методам. t tttt
Френк Харрелл

2
CLT насправді є асимптотичним твердженням, і коли більшість людей посилається на це, я підозрюю, що ідея в їхній голові є чимось на зразок теореми Беррі – Ессена (вони вважають, що конвергенція до нормальності відбувається з "розумною" швидкістю, а тому їх розмір вибірки є "досить хорошим"). Але навіть це дещо складніші міркування можуть призвести до неправильного висновку про достовірність t-тесту. Цікаво, чи варто згадувати / підкреслювати у цій відповіді, що навіть Беррі – Ессен не "рятує" помилкове звернення до CLT.
Срібна рибка

3
@FrankHarrell Що ви маєте на увазі під "типовим відхиленням вибірки, працює як міра дисперсії для справжнього невідомого розподілу"? Було б корисно, якщо ви додали у відповідь коротке пояснення (можливо, лише одне речення).
mark999

9

Я залишаю цей параграф для коментарів, щоб мати сенс: Мабуть, припущення про нормальність у вихідних сукупностях є занадто обмежуючим, і його можна пропустити, зосередившись на розподілі вибірки, завдяки центральній граничній теоремі, особливо для великих зразків.

Застосування тесту, ймовірно, є хорошою ідеєю, якщо (як це зазвичай буває) ви не знаєте дисперсії сукупності, а замість цього використовуєте вибіркові дисперсії в якості оцінювачів. Слід зазначити , що припущення про однакових відхиленнях може знадобитися тестування з тестом F дисперсій або тестом Lavene перед нанесенням об'єднаної дисперсії - У мене є кілька заміток на GitHub тут .t

Як ви згадували, t-розподіл збігається до нормального розподілу в міру збільшення вибірки, оскільки цей швидкий R-графік демонструє:

введіть тут опис зображення

Червоним кольором є pdf звичайного розповсюдження, а фіолетовим кольором можна побачити прогресивну зміну "жирових хвостів" (або більш важких хвостів) pdf розподілу міру збільшення ступенів свободи, поки остаточно не змішаться з нормальний сюжет.t

Таким чином, застосувати z-тест, ймовірно, буде добре для великих зразків.


Вирішення питань з моєю початковою відповіддю. Дякую, Glen_b за допомогу в роботі з ОП (ймовірні нові помилки в інтерпретації - цілком мої).

  1. СТАТИСТИЧНІ ПОСЛІДКИ ПРИ РАЗПРЕДЕЛЕННІ ЗА ПЕРЕДБАЧЕННЯМ НОРМАЛЬНОСТІ:

Не залишаючи складностей у формулах для одного зразка проти двох зразків (парних і непарних), загальна t статистика, орієнтована на випадок порівняння вибіркової середньої середньої сукупності :

(1)t-test=X¯μsn=X¯μσ/ns2σ2=X¯μσ/nx=1n(XX¯)2n1σ2

Якщо слід за нормальним розподілом із середнім та дисперсією :μ σ 2Xμσ2

  1. Чисельник .N ( 1 , 0 )(1) N(1,0)
  2. Знаменником буде квадратний корінь (масштабований chi квадрат), оскільки як похідне тут .s 2 / σ 2(1)s2/σ2n11n1χn12(n1)s2/σ2χn12
  3. Чисельник і знаменник повинні бути незалежними.

За цими умовами .t-statistict(df=n1)

  1. ЦЕНТРАЛЬНА ОГРАНІЧНА ТЕОРЕМА:

Тенденція до нормальності розподілу вибірки для вибірки означає, що розмір вибірки збільшується, може обґрунтувати припущення про нормальний розподіл чисельника, навіть якщо сукупність не є нормальною. Однак це не впливає на дві інші умови (розподіл чи знаменника квадратів чи та незалежність чисельника від знаменника).

Але не все втрачено, в цій публікації обговорюється, як теорема Слуцького підтримує асимптотичну конвергенцію до нормального розподілу, навіть якщо розподіл чи в знаменнику не дотримано.

  1. РОБОЧІСТЬ:

На статті "Більш реалістичний погляд на властивості помилок надійності та типу II тесту на тест до відхилення від нормальності населення" Савіловського С.С. і Блера РК у " Психологічному віснику", 1992, т. 111, № 2, 352-360 , де вони перевіряли менш ідеальні чи більш "реальні" (менш нормальні) розподіли за потужністю та помилками I типу, можна знайти такі твердження: "Незважаючи на консервативний характер щодо типу Я помилка t-тесту для деяких із цих реальних розподілів, мало вплинуло на рівні потужності для різноманітних обробних умов та розмірів зразків, які вивчалися. Дослідники можуть легко компенсувати невеликі втрати потужності, вибравши трохи більший розмір зразка " .

" Здається, що переважає думка, що t-тест незалежних зразків є досить надійним, якщо стосується помилок типу I, до форми популяції, що не є Гауссом, до тих пір, поки (a) розміри вибірки рівні або майже такі, (b) вибірка розміри досить великі (Boneau, 1960, згадує розміри вибірки від 25 до 30), і (c) тести є двохвостими, а не однохвостими. Зауважте також, що при дотриманні цих умов різниці між номінальною альфаю і фактичною альфа виникають, розбіжності, як правило, мають більш консервативний характер, ніж ліберальний характер ".

Автори наголошують на суперечливих аспектах теми, і я з нетерпінням чекаю роботи над деякими моделюваннями, заснованими на лонормальному розподілі, як згадував професор Гаррелл. Я також хотів би придумати декілька порівнянь Монте-Карло з непараметричними методами (наприклад, тест Манна – Вітні U). Тож це незавершена робота ...


МОДЕЛЮВАННЯ:

Відмова від відповідальності: Далі йде одна з цих вправ «доказувати себе» так чи інакше. Результати не можуть бути використані для узагальнення (принаймні, не мною), але, мабуть, можу сказати, що ці два (ймовірно, хибні) симуляції МС не здаються занадто обескуражуючими щодо використання тесту t в обставинах описано.

Помилка I типу:

У питанні помилок типу I я запустив моделювання Монте-Карло, використовуючи розподіл Lognormal. Витягуючи те, що вважалося б більшими зразками ( ) багато разів з лонормального розподілу з параметрами і , я обчислював значення t і p-значення, які були б результатом, якщо ми порівнювали б кошти цих зразків, усі вони походять від однієї і тієї ж сукупності, і всі однакового розміру. Логоритм був обраний виходячи з коментарів та поміченої косості розподілу праворуч:n=50μ=0σ=1

введіть тут опис зображення

Встановивши рівень значущості фактичний показник помилок типу I становив би , не дуже погано ...5%4.5%

Насправді графік щільності отриманих t-тестів, здавалося, перекривав фактичний pdf t-розподілу:

введіть тут опис зображення

Найцікавішою була дивлячись на «знаменник» тесту t, на частину, яка мала слідувати розподілу чи-квадрата:

(n1)s2/σ2=98(49(SDA2+SDA2))/98(eσ21)e2μ+σ2
.

Тут ми використовуємо загальне стандартне відхилення, як у цій статті у Вікіпедії :

SX1X2=(n11)SX12+(n21)SX22n1+n22

І дивно (чи ні) сюжет був надзвичайно несхожим на накладений PDF-файл із чи-квадратом:

введіть тут опис зображення

Помилка та потужність II типу:

Розподіл артеріального тиску можна логнормального , який приходить дуже зручно , щоб створити синтетичний сценарій , в якому група порівняння роздільність в середніх значеннях на відстані клінічної значущості, наприклад , в клінічному дослідженні тестування ефекту кров'яного тиску Орієнтація препарату на діастолічний АД, вагомим ефектом можна вважати середнє падіння на мм рт.ст. ( обрано СД приблизно мм рт.ст.):9109

введіть тут опис зображення Виконуючи порівняльні t-тести на інакше подібному моделюванні Монте-Карло, як і для помилок типу I між цими вигаданими групами, і з рівнем значущості ми отримуємо помилки типу II та потужність лише .0,024 % 99 %5%0.024%99%

Код тут .


1
Я думаю, це звичайне непорозуміння CLT. Не тільки CLT не має нічого спільного із збереженням помилки типу II (про яку тут ніхто не згадував), але й часто не застосовується, коли потрібно оцінити відхилення чисельності. Дисперсія вибірки може бути дуже далекою від масштабованого розподілу чи-квадрата, коли дані не є гауссовими, тому CLT може не застосовуватися навіть тоді, коли розмір вибірки перевищує десятки тисяч. Для багатьох розповсюджень SD не є навіть хорошим показником дисперсності.
Френк Харрелл

1
Професоре Харрелл, я буду радий зайняти цю посаду, якщо вона невірна. Це може бути дуже принциповим непорозумінням. Я припускав, що CLT, застосований до розподілу вибірки, означає, що у великих зразках перевіряється порівняння засобів із z-тестом або t-тестом незалежно від розподілу походження зразків. Це не правильно?
Антоні Пареллада

1
Це було б правильно, якщо (1) вибіркове стандартне відхилення працює як міра дисперсії для справжнього невідомого розподілу або (2) істинне стандартне відхилення сукупності відоме. Це дуже часто не так. І приклад п = 20000 будучи далеко надто малий для ЦПТА до «роботи» походить від складання вибірок з розподілу логнормального. Нерозуміння цих питань є поширеним серед докторів статистики з 20-річним досвідом.
Френк Харрелл

5
Проблема, Ліза, полягає в тому, чи потрібно вам порівнювати засоби чи просто хочете порівняти місця розташування двох груп населення. У деяких програмах інтерес зосереджується на середній чи сумі, тому заміщення його на якийсь інший параметр буде мало користі. Особливо це стосується випадків, коли населення - це природно кумулятивна кількість, наприклад, гроші або забруднення навколишнього середовища.
whuber

3
Антоні, ваш останній розділ про надійність цілком доречний. Я зробив багато досліджень, подібних до тих, що описані Савілоскі та Блером, і прочитав багато інших, і тому підозрюю, що їх висновки мають бути обмежені дуже спеціальними видами даних. Випробування t не спрацьовує, особливо за потужністю, за наявності сильно перекошених розподілів. Що здивувало мене протягом багатьох років, це те, що це справді досить надійно щодо інших відхилень від нормальності, до того, що я бачу певну обґрунтованість у твердженнях, що це непараметрична процедура.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.