Як вибрати між t-тестом або непараметричним тестом, наприклад, Wilcoxon у невеликих пробах


96

Певні гіпотези можна перевірити, використовуючи t- test Стьюдента (можливо, використовуючи корекцію Уелча на неоднакові відхилення у випадку з двома зразками) або непараметричний тест, наприклад, тест парного підписання Вілкоксона з підписаним рангом, тест Вілкоксона-Манна-Вітні U, або тест на парні знаки. Як ми можемо прийняти принципове рішення про тест, який тест є найбільш підходящим, особливо якщо розмір вибірки "невеликий"?

Багато вступних підручників та конспектів лекцій дають підхід "блок-схеми", коли перевіряється нормальність (або - ненавмисно - за допомогою тесту на нормальність, або в більш широкому розумінні - за допомогою QQ-сюжету або подібного), щоб вибрати між t -test або непараметричним тестом. Для непарного t -тесту для двох зразків може бути додаткова перевірка однорідності дисперсії, щоб вирішити, застосовувати корекцію Вельча. Одне питання при такому підході полягає в тому, як рішення, який тест застосовувати, залежить від спостережуваних даних, і як це впливає на продуктивність (потужність, рівень помилок типу I) вибраного тесту.

Інша проблема полягає в тому, наскільки жорстка перевірка нормальності в невеликих наборах даних: формальне тестування має низьку потужність, тому порушення може бути не виявлено, але подібні проблеми стосуються даних очей на графіку QQ. Навіть грубі порушення можуть не виявитись, наприклад, якщо розподіл є змішаним, але від одного компонента суміші не спостерігалося спостережень. На відміну від великих , ми не можемо спиратися на захисну сітку теореми про центральний межа та асимптотичну нормальність тестової статистики та t розподілу.n

Одним із принципових відповідей на це є "спочатку безпека": не маючи можливості надійно перевірити припущення про нормальність у невеликій вибірці, дотримуйтесь непараметричних методів. Іншим є розгляд будь-яких підстав для припущення нормальності, теоретично (наприклад, змінна - це сума декількох випадкових компонентів і застосовується CLT) або емпірично (наприклад, попередні дослідження з більшим припускають, що змінна нормальна), і використовувати t- test лише за наявності таких підстав . Але це, як правило, виправдовує лише приблизну нормальність, і за низьким ступенем свободи важко судити про те, наскільки близьким до норми він повинен бути, щоб уникнути недійсності t- test.n

Більшість посібників щодо вибору t-тесту або непараметричного тесту зосереджуються на питанні нормальності. Але невеликі зразки також викликають деякі побічні проблеми:

  • Якщо ви виконуєте t-тест "неспоріднених зразків" або "непарних", чи слід використовувати корекцію Welch ? Деякі люди використовують тест гіпотези щодо рівності дисперсій, але тут він мав би низьку потужність; інші перевіряють, чи є "SD" "розумно" близькими чи ні (за різними критеріями). Чи безпечніше просто завжди використовувати коригування Велча для невеликих зразків, якщо не існує певних вагомих причин вважати, що відхилення сукупності рівні?

  • Якщо ви бачите вибір методів як компроміс між потужністю та стійкістю, претензії щодо асимптотичної ефективності непараметричних методів не є корисними . Основне правило, що " тести Вілкоксона мають близько 95% потужності t-тесту, якщо дані дійсно нормальні , і часто є набагато більш потужними, якщо даних немає, тому просто використовуйте Wilcoxon", іноді чути, але якщо 95% стосується лише великих , це хибно міркування для менших зразків.n

  • Невеликі вибірки можуть зробити дуже важким або неможливим оцінити, чи підходить трансформація для даних, оскільки важко сказати, чи належать трансформовані дані до (достатньо) нормального розподілу. Отже, якщо графік QQ виявляє дуже позитивно перекошені дані, які виглядають більш розумними після прийняття журналів, чи безпечно використовувати t-тест на записаних даних? На більш великих зразках це було б дуже спокусливо, але з малим я, мабуть, затримався, якщо б не було підстав очікувати нормального розподілу журналу в першу чергу.n

  • А як щодо перевірки припущень для непараметричних показників? Деякі джерела рекомендують перевірити симетричний розподіл перед застосуванням випробування Вілкоксона (трактуючи це як тест на місце розташування, а не на стохастичне домінування), що спричиняє подібні проблеми з перевіркою нормальності. Якщо причиною, по якій ми застосовуємо непараметричний тест, в першу чергу є сліпе покірність мантрі "спочатку безпеки", то труднощі з оцінкою косості з малого зразка, очевидно, призведуть до меншої потужності тесту на парні знаки. .

Маючи на увазі ці проблеми з невеликим зразком, чи є хороша - сподіваємось, що - процедура, яку слід вирішити, вирішуючи між t і непараметричними тестами?

Було кілька відмінних відповідей, але відповідь, що враховує інші альтернативи тестуванню рангів, такі як тести на перестановку, також буде вітатися.


2
Я повинен пояснити, що може бути "методом вибору тесту" - у вступних текстах часто використовуються блок-схеми. Для непарних даних можливо: "1. Використовуйте якийсь метод, щоб перевірити, чи обидві вибірки нормально розподілені (якщо не перейти до 3), 2. Використовуйте якийсь метод, щоб перевірити наявність нерівних дисперсій: якщо так, проведіть двопробний тест з Виправлення Велча, якщо ні, виконайте без виправлення. 3. Спробуйте перетворити дані в нормальність (якщо роботи переходять до 2-х інших - до 4). 4. Натомість виконайте тест U (можливо після перевірки різних припущень). " Але багато з цих кроків здаються незадовільними для малих росіян, як я сподіваюся, що мій Q пояснює!
Срібна рибка

2
Цікаве запитання (+1) та хоробрий хід щодо створення щедрості. Чекаємо на кілька цікавих відповідей. До речі, те, що я часто бачу застосованим у своїй галузі, - це тест на перестановку (замість або тест-трен, або Ман-Вітні-Вілкоксон). Я здогадуюсь, це також може вважатися гідним суперником. Крім того, ви ніколи не вказували, що ви маєте на увазі під малим розміром вибірки.
амеба

1
@Alexis Багато книг стверджують, що тест Вілкоксона передбачає симетрію щодо медіани, принаймні, якщо результати розглядаються як твердження про місцеположення (деякі рекомендують поле для перевірки: див. Мою дискусію з Гленом вище / відповідь Френка Гаррелла нижче про небезпеку багатоступінчастості процедура). Також деякі джерела стверджують, що Wilcoxon-Mann-Whitney U передбачає, що групові розподіли відрізняються лише перекладом (і пропонують візуальну перевірку гістограм або емпіричних CDF). Сиг. Тест U може бути зумовлений різними фігурними розподілами, навіть якщо медіани рівні. Дивіться також статті, цитовані в коментарях під відповіддю Френка Гаррелла.
Срібляста рибка

3
0:P(XA>XB)=0.5

2
Можливо, варто вивчити, наскільки «хибно» міркування «95% для Вілкоксона» є для невеликих зразків (частково це залежить від того, що саме, хто робить, а наскільки мало). Якщо, наприклад, ви раді проводити тести, скажімо, 5,5% замість 5%, якщо це найближчий досяжний рівень значущості, потужність часто має тенденцію триматися досить добре. Звичайно, можна, звичайно, на етапі "розрахунку потужності" перед тим, як збирати дані, з'ясувати, якими можуть бути обставини, і зрозуміти, які властивості Вілкоксона знаходяться в розмірах вибірки, яку ви розглядаєте.
Glen_b

Відповіді:


67

Я збираюся змінити порядок питань про.

Я знайшов, що підручники та конспекти лекцій часто не погоджуються, і я хотів би, щоб система працювала над вибором, який можна сміливо рекомендувати як найкращу практику, і, особливо, підручник або папір, на які можна посилатися.

На жаль, деякі обговорення цього питання в книгах і так далі покладаються на отриману мудрість. Іноді така здобута мудрість є розумною, іноді - це менш (хоча б у тому сенсі, що вона має тенденцію зосереджуватися на меншому питанні, коли більша проблема ігнорується); ми повинні уважно вивчити виправдання, пропоновані поради (якщо таке взагалі пропонується).

Більшість посібників щодо вибору t-тесту або непараметричного тесту зосереджуються на питанні нормальності.

Це правда, але я дещо помилково з кількох причин, на які я звертаюся у цій відповіді.

Якщо ви виконуєте t-тест "неспоріднених зразків" або "непарних", чи слід використовувати корекцію Welch?

Це (використовувати його, якщо у вас немає підстав вважати, що відхилення повинні бути рівними) є порадою численних посилань. Я вказую на деякі у цій відповіді.

Деякі люди використовують тест гіпотези щодо рівності дисперсій, але тут він мав би низьку потужність. Як правило, я просто підкреслюю, чи є "вибірково" близькі вибіркові СД (це дещо суб'єктивно, тому має бути більш принциповий спосіб цього робити), але знову ж таки, при низькому рівні n, цілком можливо, що SD-групи населення досить далі крім зразків.

Чи безпечніше просто завжди використовувати коригування Велча для невеликих зразків, якщо не існує жодних вагомих причин вважати, що відхилення сукупності рівні? Ось яка рада. На властивості тестів впливає вибір на основі тесту припущення.

Деякі посилання на це можна побачити тут і тут , хоча є більше, що говорять про подібні речі.

Питання з рівними дисперсіями має багато подібних характеристик з питанням щодо нормальності - люди хочуть його перевірити, поради пропонують обумовити вибір тестів за результатами тестів може негативно вплинути на результати обох видів наступного тестування - краще просто не припускати, що ви не можете адекватно обґрунтувати (аргументуючи дані, використовуючи інформацію інших досліджень, що стосуються одних і тих же змінних тощо).

Однак існують відмінності. Одне полягає в тому, що - принаймні, з точки зору розподілу тестової статистики за нульовою гіпотезою (а отже, її рівнева надійність) - ненормальність є менш важливою у великих вибірках (принаймні, щодо рівня значущості, хоча потужність може все-таки проблемою залишається, якщо вам потрібно знайти невеликі ефекти), тоді як ефект неоднакових дисперсій за припущенням рівної дисперсії насправді не зникає з великим розміром вибірки.

Який принциповий метод можна рекомендувати для вибору, який є найбільш відповідним тестом, коли розмір вибірки "невеликий"?

Що стосується тестів гіпотез, то, що має значення (за певного набору умов), це насамперед дві речі:

  • Який фактичний показник помилок типу I?

  • Яка поведінка влади?

α

Маючи на увазі ці проблеми з невеликим зразком, чи існує хороший контрольний список, який, сподіваємось, підходить для вирішення між t і непараметричними тестами?

Я розгляну низку ситуацій, в яких я буду давати деякі рекомендації, розглядаючи як нестандартність, так і неоднакові розбіжності. У кожному випадку, згадайте про тест t, щоб мати на увазі тест Велча:

  • n середній-великий

Ненормальна (або невідома), ймовірно, має майже рівну дисперсію:

Якщо розподіл важкохвостий, вам, як правило, краще з Манном-Вітні, хоча якщо він лише трохи важкий, t-тест повинен зробити добре. З легкими хвостами можна віддавати перевагу t-тесту (часто). Перевірка на перестановку - хороший варіант (ви навіть можете зробити тест на перестановку, використовуючи t-статистику, якщо ви так схильні). Тести для завантаження також підходять.

Ненормальна (або невідома), неоднакова дисперсія (або співвідношення дисперсії невідомо):

Якщо розподіл важкохвостий, вам, як правило, краще з Манном-Вітні - якщо нерівність дисперсії пов'язана лише з середньою нерівністю, тобто, якщо H0 справжній, різниця в спред також повинна бути відсутнім. GLM часто є хорошим варіантом, особливо якщо є перекос і поширення пов'язане із середнім значенням. Тест на перестановку - це ще один варіант, з аналогічним застереженням, як і для ранжирових тестів. Тут є гарною можливістю тести завантаження.

[1]

  • n помірно невеликий

Ранкові тести тут є розумними значеннями за замовчуванням, якщо ви очікуєте ненормальності (знову ж таки з вищезазначеним застереженням). Якщо у вас є зовнішня інформація про форму або відмінність, ви можете розглянути питання про ГММ. Якщо ви очікуєте, що речі не будуть занадто далеко від нормальних, t-тести можуть бути нормальними.

  • n дуже маленький

[2]

Пораду слід дещо змінити, коли розподіли одночасно сильно перекошені та дуже дискретні, як, наприклад, пункти зі шкалою Лікерта, де більшість спостережень належать до однієї з кінцевих категорій. Тоді Wilcoxon-Mann-Whitney не обов'язково є кращим вибором, ніж t-тест.

Моделювання може допомогти додатково керувати вибором, коли у вас є інформація про ймовірні обставини.

Я розумію, що це щось багаторічна тема, але більшість питань стосуються конкретного набору даних запитувача, іноді більш загального обговорення влади, а іноді і що робити, якщо два тести не згодні, але я хотів би, щоб процедура вибору правильного тесту в перше місце!

Основна проблема полягає в тому, наскільки важко перевірити припущення про нормальність у невеликому наборі даних:

Це є важко перевірити нормальність в невеликому наборі даних, і в який - то ступеня , що це важливе питання, але я думаю , що є ще одне питання про важливість , яку ми повинні розглянути. Основна проблема полягає в тому, що намагання оцінити нормальність як основу вибору між тестами негативно впливає на властивості тестів, які ви обираєте.

Будь-який офіційний тест на нормальність матиме низьку потужність, тому порушення може бути не виявлено. (Особисто я б не робив тестування для цієї мети, і я, очевидно, не один, але я знайшов це мало користі, коли клієнти вимагають зробити тест на нормальність, тому що це їхній підручник або старі конспекти лекцій або якийсь веб-сайт, який вони знайшли один раз заявити, що це слід зробити. Це один момент, коли цитата з важчим виглядом буде вітатися.)

[3]

Вибір між Т- та ВМЗ ДР не повинен базуватися на тесті на нормальність.

Вони так само однозначно ставляться до не перевірки рівності дисперсії.

Що ще гірше, небезпечно використовувати центральну граничну теорему як мережу безпеки: для малих n ми не можемо покладатися на зручну асимптотичну нормальність тестової статистики та t розподілу.

Навіть у великих вибірках - асимптотична нормальність чисельника не означає, що t-статистика матиме t-розподіл. Однак це може не мати великого значення, оскільки у вас все-таки повинна бути асимптотична нормальність (наприклад, CLT для чисельника і теорема Слуцького, що припускає, що з часом t-статистика повинна починати виглядати нормально, якщо умови для обох дотримані.)

Одним із принципових відповідей на це є "спочатку безпека": оскільки немає можливості надійно перевірити припущення про нормальність на невеликому зразку, замість цього виконайте еквівалентний непараметричний тест.

Це власне рада, яку дають згадки, про які я згадую (або посилаються на згадки).

Ще один підхід, який я бачив, але відчуваю себе менш комфортно, - це зробити візуальну перевірку і продовжити t-тест, якщо нічого не дотримується ("немає підстав для відхилення нормальності", ігноруючи низьку потужність цієї перевірки). Моя особиста схильність - враховувати, чи є підстави вважати нормальність, теоретичною (наприклад, змінна є сумою кількох випадкових компонентів і застосовується CLT) або емпіричною (наприклад, попередні дослідження з більшою n припускають, що змінна нормальна).

І те, і інше, є гарними аргументами, особливо якщо підкріплюється тим фактом, що t-тест є досить надійним щодо помірних відхилень від нормальності. (Однак слід пам’ятати, що «помірні відхилення» - це хитра фраза; певні відхилення від нормальності можуть трохи вплинути на ефективність роботи тесту, хоча ці відхилення візуально дуже малі - t- Тест є менш надійним для деяких відхилень, ніж інші. Ми повинні пам’ятати про це, коли ми обговорюємо невеликі відхилення від нормальності.)

Однак остерігайтеся фрази "припустити, що змінна нормальна". Бути розумно відповідальним нормальності - це не те саме, що нормальність. Ми часто можемо відкинути фактичну нормальність, не потребуючи навіть бачити дані - наприклад, якщо дані не можуть бути негативними, розподіл не може бути нормальним. На щастя, те, що важливо, ближче до того, що ми могли б насправді мати від попередніх досліджень або міркувань про те, як складаються дані, тобто те, що відхилення від нормальності повинні бути невеликими.

Якщо так, я б використовував t-тест, якби дані пройшли візуальну перевірку, інакше дотримуватися непараметричних показників. Але будь-які теоретичні або емпіричні підстави, як правило, лише виправдовують припущення про приблизну нормальність, і за низьким ступенем свободи важко судити про те, наскільки близько від норми потрібно, щоб уникнути недійсності t-тесту.

Ну, це те, що ми можемо оцінити вплив досить легко (наприклад, за допомогою симуляцій, як я вже згадував раніше). З того, що я бачив, косоокість здається важливішою, ніж важкі хвости (але, з іншого боку, я бачив деякі твердження протилежного, хоча я не знаю, на чому це ґрунтується).

Для людей, які розглядають вибір методів як компроміс між потужністю та стійкістю, твердження про асимптотичну ефективність непараметричних методів не є корисними. Наприклад, правило, що "тести Вілкоксона мають приблизно 95% потужності t-тесту, якщо дані дійсно нормальні, і часто набагато потужніші, якщо дані не є, тому просто використовуйте Wilcoxon" іноді почули, але якщо 95% стосується лише великих n, це хибні міркування для менших зразків.


[2]

Здійснюючи подібні імітації за різних обставин, як для двох зразків, так і для одноразових / парних різниць випадків, мала ефективність вибірки в нормі в обох випадках здається трохи нижчою, ніж асимптотична ефективність, але ефективність підписаного рангу і тести Вілкоксона-Манна-Вітні все ще дуже високі навіть при дуже малих розмірах вибірки.

Принаймні так, якщо тести робляться на тому самому рівні фактичної значущості; ви не можете зробити тест на 5% з дуже маленькими зразками (і, принаймні, не без рандомізованих тестів, наприклад), але якщо ви готові зробити (скажімо) тест на 5,5% або 3,2%, то рейтингові тести провести дуже добре, порівняно з t-тестом на цьому рівні значущості.

Невеликі вибірки можуть зробити дуже важким або неможливим оцінити, чи підходить трансформація для даних, оскільки важко сказати, чи належать трансформовані дані до (достатньо) нормального розподілу. Отже, якщо графік QQ виявляє дуже позитивно перекошені дані, які виглядають більш розумними після прийняття журналів, чи безпечно використовувати t-тест на записаних даних? На більш великих зразках це було б дуже спокусливо, але з малим n я, мабуть, затримався, якщо б не було підстав очікувати нормального розподілу журналу в першу чергу.

Є ще одна альтернатива: зробити інше параметричне припущення. Наприклад, якщо є перекошені дані, можна, наприклад, в деяких ситуаціях розумно розглянути гамма-розподіл чи якусь іншу перекошене сімейство як краще наближення - у помірно великих зразках ми можемо просто використовувати GLM, але у дуже малих зразках може знадобитися переглянути тест з невеликим зразком - у багатьох випадках моделювання може бути корисним.

Альтернатива 2: обгрунтовувати t-тест (але дбаючи про вибір надійної процедури, щоб не сильно дискретизувати отриманий розподіл тестової статистики) - це має деякі переваги перед дуже маленьким зразком непараметричної процедури, наприклад, здатність розглянути тести з низьким рівнем помилок I типу.

Тут я розмірковую, як використовувати М-оцінювачі місцеположення (і пов'язані з ними оцінювачі масштабу) в t-статистиці, щоб плавно ростифікувати проти відхилень від нормальності. Щось схоже на Велч, як-от:

xySp

Sp2=sx2nx+sy2nyxsx

ψn

Наприклад, ви можете використовувати моделювання на звичайному рівні, щоб отримати p-значення (якщо розміри вибірки дуже малі, я б запропонував, що при завантаженні - якщо розміри вибірки не такі малі, ретельно реалізований завантажувальний пристрій може зробити досить добре , але тоді ми можемо також повернутися до Вілкоксона-Манна-Вітні). Існує коефіцієнт масштабування, а також корекція df, щоб дістатися до того, що я б уявив, тоді було б розумним t-наближенням. Це означає, що ми повинні отримати такі властивості, яких ми прагнемо дуже близькі до нормальних, і повинні мати розумну стійкість у широкій близькості від норми. Виникає ряд питань, які не виходять за рамки цього питання, але я думаю, що в дуже малих зразках користь повинна перевищувати витрати та необхідні додаткові зусилля.

[Я дуже давно не читав літературу про цей матеріал, тому не маю підходящих посилань на цю тему.]

Звичайно, якщо ви не очікували, що розподіл буде чимось нормальним, а скоріше подібним до якогось іншого, ви можете провести відповідну параметризацію іншого параметричного тесту.

Що робити, якщо ви хочете перевірити припущення щодо непараметричних показників? Деякі джерела рекомендують перевірити симетричний розподіл перед тим, як застосувати тест Вілкоксона, що викликає подібні проблеми з перевіркою нормальності.

Справді. Я припускаю, що ви маєте на увазі підписаний тест *. У разі використання їх для парних даних, якщо ви готові припустити, що два розподіли мають однакову форму, крім зрушення місця розташування, ви безпечні, оскільки відмінності повинні бути симетричними. Насправді нам навіть не так багато потрібно; для тесту для роботи потрібна симетрія під нулем; це не вимагається в альтернативному варіанті (наприклад, розгляньте парну ситуацію з однаковою формою правого косого безперервного розподілу на позитивній півлінійці, де шкали різняться за альтернативою, але не під нулем; підписаний тест на ранг повинен працювати по суті так, як очікувалося в той випадок). Інтерпретація тесту простіша, якщо альтернативою є зміщення місця.

* (Ім’я Вілкоксона асоціюється як з одним, так і з двома зразками рангових тестів - підписаною сумою рангів і рангів; їх тест U, Менн та Вітні узагальнили ситуацію, вивчену Вілкоксоном, і ввели важливі нові ідеї для оцінки нульового розподілу, але пріоритет між двома групами авторів на Вілкоксона-Манна-Уїтні явно Вілкоксона - так , по крайней мере , якщо ми будемо розглядати тільки Wilcoxon проти Mann & Whitney, Вілкоксона йде першим в моїй книзі , проте, здається. Закон Стиглера б'є мене ще раз, і Вілкоксона можливо, слід поділитися частиною цього пріоритету з кількома попередніми співробітниками, і (крім Манна та Уітні) слід поділитися кредитом з кількома відкривачами еквівалентного тесту. [4] [5])

Список літератури

[1]: Zimmerman DW та Zumbo BN, (1993), Рейтингові
перетворення та потужність t-тесту Стьюдента і тесту Вельча для ненормальних груп населення,
Канадський журнал Експериментальна психологія, 47 : 523–39.

[2]: JCF de Winter (2013),
"Використання t-тесту Стьюдента з надзвичайно малими розмірами вибірки",
Практичне оцінювання, дослідження та оцінка , 18 : 10, серпень, ISSN 1531-7714
http://pareonline.net/ getvn.asp? v = 18 & n = 10

[3]: Майкл П. Фей та Майкл А. Просчан (2010),
"Вілкоксон-Ман-Уїтні або t-тест? Про припущення для тестів гіпотез та багаторазових тлумачень правил рішення",
Стат Сурв ; 4 : 1–39.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2857732/

[4]: Berry, KJ, Mielke, PW та Johnston, JE (2012),
"Двомаразовий тест за ранговою сумою: ранній розвиток",
Електронний журнал з історії вірогідності та статистики , Vol.8, грудень
pdf

[5]: Kruskal, WH (1957),
"Історичні записки про випарений двопробний тест Вілкоксона",
Journal of American Statistics Association , 52 , 356–360.


Пару речей, на які я хотів би пояснити. Є декілька моментів, де ви згадуєте, наприклад, "Якщо дистрибуція важкохвоста, ..." (або перекошена і т. Д.) - мабуть, це слід розуміти як "якщо розумно припустити, що розподіл буде важким" (з теорії / попередні дослідження / що завгодно), а не «якщо зразок важкохвостий», інакше ми знову на багатоступеневому тестуванні, чого саме ми намагаємось уникати? (Мені здається, що в цій темі центральним питанням є те, як виправдати переконання чи припущення щодо розподілу, не читаючи занадто багато у вибірці.)
Срібляста рибка

Так, це слід розуміти як "населення, або відомо, що має великі хвости, або може бути обґрунтовано очікувано, що воно буде хворобливим". Це, безумовно, включає такі речі, як теорія (а іноді навіть загальні міркування про ситуацію, яка не зовсім досягає статусу теорії ), експертні знання та попередні дослідження. Це не пропонує тестування на важку хворобу. У ситуаціях, коли це просто невідомо, можливо, варто дослідити, наскільки погані речі можуть бути під різними розподілами, які можуть бути правдоподібними для вашої конкретної ситуації.
Glen_b

Будь-який шанс, що ця і без того чудова відповідь могла б включити трохи детальніше про те, які варіанти можуть бути "надійними" для тесту?
Срібна рибка

Срібляста рибка - я не впевнений, чи достатньо я вирішив ваше питання з проханням детально розглянути питання. Зараз додам трохи більше.
Glen_b

Велике спасибі за додаток, я подумав, що багато чого додало до якості цієї відповіді. Тепер це запитання трохи вгамувалося і створило гарний набір відповідей, я хотів би дати оригінальному запитанню гарне копіювання та видалити все, що може ввести в оману (на користь читачів, які не читають минулого питання!). Чи добре, коли я роблю це для мене, щоб внести відповідні зміни до вашої відповіді, щоб цитати відповідали реорганізованому питанню?
Срібна рибка

22

YktP

Зводячи все це разом, деякі запропоновані вказівки полягають у наступному:

  1. Якщо немає переконливих причин припускати розподіл Гаусса перед вивченням даних, і не потрібне кореваційне коригування, використовуйте непараметричний тест.
  2. Якщо потрібне кореваційне коригування, використовуйте узагальнення напівпараметричної регресії рейтингового тесту, який ви бажаєте. Для тесту Вілкоксона це пропорційна модель шансів, а для нормальної оцінки - це пробільна порядкова регресія.

t3πY

kkloglogЗв'язуючи кумулятивну ймовірність порядкової моделі, розподіли вважаються пропорційними небезпеками. Для моделі кумулятивної ймовірності зв’язку logit (модель пропорційного коефіцієнта) розподіли вважаються пов'язаними припущеннями пропорційного непарності, тобто логіти функцій кумулятивного розподілу паралельні. Форма одного з розподілів не має значення. Деталі можна знайти на веб-сайті http://biostat.mc.vanderbilt.edu/CourseBios330 у Розділі 15 роздаткових матеріалів.

Існують два типи припущень, що часто застосовуються статистичним методом. Перше - це припущення, необхідні для збереження помилки методу типу I. Друга стосується збереження помилки II типу (оптимальність; чутливість). Я вважаю, що найкращий спосіб викласти припущення, необхідні для другого, - це внести непараметричний тест у напівпараметричну модель, як це зроблено вище. Фактичний зв'язок між ними - це тести ефективних балів Rao, які випливають із напівпараметричної моделі. Чисельник оціночного тесту з пропорційної моделі шансів для двовимірного випадку є точно статистикою рангової суми.


1
Дякую за це, я дуже симпатизую до філософії цієї відповіді - наприклад, багато джерел пропонують мені хоча б перевірити очні яблука на нормальність, перш ніж зважитися на тест. Але така багатоступенева процедура чітко, хоча і тонко впливає на тест роботи.
Срібна рибка

1
nn=15

3
10000p

4
Перестановочні тести - це способи контролю помилки типу I, але не стосуються помилки типу II. Тест на перестановку, заснований на субоптимальних статистичних даних (наприклад, звичайна середня величина та дисперсія, коли дані надходять з логічно-гауссового розподілу), зазнають потужності.
Френк Харрелл

3
Так, Розділ 15 в роздаткових матеріалах розгорнуто до нової глави майбутнього другого видання моєї книги, яку я надрукую видавцю наступного місяця.
Френк Харрелл

13

Ренд Вілкокс у своїх публікаціях та книгах зазначає дуже важливі моменти, багато з яких були перелічені Френом Харрелом та Glen_b у попередніх публікаціях.

  1. Середнє значення - це не обов'язково кількість, про яку ми хочемо зробити висновки. Можливо, є й інші кількості, які краще відображають типове спостереження.
  2. Для t-тестів потужність може бути низькою навіть для невеликих відхилень від нормальності.
  3. Для t-тестів спостережуване покриття ймовірності може істотно відрізнятися від номінального.

Деякі основні пропозиції:

  1. Надійною альтернативою є порівняння обрізаних засобів або М-оцінок за допомогою t-тесту. Wilcox пропонує 20% обрізаних засобів.
  2. Методи емпіричної ймовірності теоретично більш вигідні ( Owen, 2001 ), але не обов'язково так для середнього та малого n.
  3. Тести перестановок чудові, якщо потрібно контролювати помилку типу I, але не можна отримати CI.
  4. У багатьох ситуаціях Wilcox пропонує завантажувач-t порівняти оброблені засоби. У R це реалізовано у функціях yuenbt , yhbt у пакеті WRS .
  5. Процентний завантажувач може бути кращим, ніж процентиль-т, коли кількість обрізки становить> / = 20%. У R це реалізовано у функції pb2gen у вищезгаданому пакеті WRS .

Два хороших посилання - Wilcox ( 2010 ) та Wilcox ( 2012 ).


8

Бредлі у своїй праці " Статистичні тести без розподілу" (1968, с. 17–24) приводить тринадцять протиставлень між тим, що він називає "класичними" та "тестами без розподілу". Зауважте, що Бредлі розрізняє "непараметричний" і "без розподілу", але для цілей вашого питання ця різниця не має значення. До складу цих тринадцяти входять елементи, які стосуються не лише похідних тестів, а їх застосування. До них належать:

  • Вибір рівня значущості: Класичні тести мають постійний рівень значущості; Тести без розподілу зазвичай мають дискретні спостереження за рівнями значущості, тому класичні тести пропонують більшу гнучкість у встановленні зазначеного рівня.
  • Логічна обґрунтованість області відхилення: Області відхилення тесту, що не належать до розповсюдження, можуть бути менш зрозумілими інтуїтивно (ні обов'язково гладкими, ні безперервними) і можуть викликати плутанину щодо того, коли тест слід вважати відхиленим нульовою гіпотезою.
  • Тип статистики, яку можна перевірити: Цитувати Бредлі безпосередньо: " Статистику, визначену арифметичними операціями при величинах спостереження, можна перевірити класичними методами, оскільки це визначається залежностями порядку (рангом) або категорією частот тощо" Методи без розподілу. Засоби та відхилення - це приклади колишнього та медіанного та міжквартирного діапазонів, другого . "Особливо, коли ми маємо справу з ненормальними розподілами, здатність перевіряти інші статистичні дані стає цінною, надаючи ваги тестам, що не мають розподілу. .
  • Досліджуваність взаємодій вищого порядку: Набагато простіше під час класичних тестів, ніж тести без розповсюдження.
  • Вплив розміру вибірки:На мою думку, це досить важливо. Коли розміри вибірки невеликі (Бредлі говорить близько n = 10), може бути дуже важко визначити, порушені чи ні параметричні припущення, що лежать в основі класичних тестів. Тести, що не мають розповсюдження, не можуть порушувати ці припущення. Більше того, навіть коли припущення не були порушені, тести, що не мають розповсюдження, часто майже так само прості у застосуванні та майже настільки ж ефективні, як тест. Так що для невеликих розмірів вибірки (менше 10, можливо до 30) Бредлі віддає перевагу майже рутинному застосуванню тестів, що не мають розповсюдження. Для великих розмірів вибірки теорема центрального ліміту має тенденцію перекрити параметричні порушення, оскільки середнє значення вибірки та дисперсія вибірки будуть досягати нормальних показників, а параметричні тести можуть бути кращими з точки зору ефективності.
  • Сфера застосування: Якщо вони не є розповсюдженням, такі тести застосовуються для значно більшого класу груп населення, ніж класичні тести, що передбачають певний розподіл.
  • Виявлення порушення припущення про безперервний розподіл: Легко помітити в тестах без розподілу (наприклад, наявність зв'язаних балів), складніше в параметричних тестах.
  • Ефект порушення припущення про безперервний розподіл: Якщо припущення порушено, тест стає неточним. Бредлі витрачає час, пояснюючи, як можна оцінити межі неточності для тестів, що не розповсюджуються, але немає аналогічної програми для класичних тестів.

1
Дякую за цитування! Робота Бредлі здається досить старою, тому я підозрюю, що у неї не так багато роботи над сучасними імітаційними дослідженнями для порівняння ефективності та частоти помилок типу I / II у різних сценаріях? Мене також зацікавило б, що він пропонує щодо тестів Бруннера-Мунзеля - чи слід їх використовувати замість U-тесту, якщо невідомі розбіжності в двох групах?
Срібна рибка

1
Бредлі все ж обговорює ефективність, хоча більшість часу це відбувається в контексті відносної асимптотичної ефективності. Іноді він приносить джерела для тверджень про кінцеву ефективність розміру вибірки, але оскільки робота починається з 1968 року, я впевнений, що з того часу були зроблені набагато кращі аналізи. Якщо говорити про це, якщо я маю рацію, Бруннер та Мунзель написали свою статтю в 2000 році , в якій пояснюється, чому про неї не згадують у Бредлі.
Аврахам

Так, це дійсно би пояснило це! :) Чи знаєте ви, чи є більш сучасне опитування, ніж Бредлі?
Срібна рибка

Короткий пошук показує, що є багато останніх текстів з непараметричної статистики. Наприклад: непараметричні статистичні методи (Hollander et al, 2013), непараметричні тестування гіпотези: методи ранжування та перестановки з додатками в R (Bonnini et al, 2014), непараметричні статистичні умовиводи, П'яте видання (Gibbons and Chakraborti, 2010). Є багато інших, які підходять до різних пошуків. Оскільки я не маю жодних, я не можу давати жодних рекомендацій. Вибачте.
Аврахам

5

Починаючи відповідати на це дуже цікаве запитання.

Для даних, що не є парними:

Виконання п'яти двопробних тестів локації для перекошених розподілів з неоднаковими відхиленнями Мортен В. Фагерланд, Леїв Сандвік (за платною стіною) проводить серію експериментів з 5 різними тестами (t-тест, Welch U, Yuen-Welch, Wilcoxon-Mann -Вітні та Бруннер-Мюнзель) для різних комбінацій розміру вибірки, співвідношення вибірки, відходу від нормальності тощо. У статті закінчується пропозиція Welch U взагалі,

Але додаток А до документа перераховує результати для кожної комбінації розмірів вибірки. А для невеликих розмірів вибірки (m = 10 n = 10 або 25) результати є більш заплутаними (як очікувалося) - на мою оцінку результатів (а не авторів) Welch U, Бруннер-Мюнзель, здається, працює однаково добре, і t-тест також добре в m = 10 і n = 10 випадку.

Це я знаю досі.

Для "швидкого" рішення я наводив підвищення рівня обізнаності лікарів про вплив статистики на результати досліджень: порівняльна потужність t-тесту та тесту Вілкоксона за рейтинговою сумою у малих зразках, прикладних досліджень Патріка Д Бріджа та Шломо С. Савіловського (також позаду платної стіни) і переходимо прямо до Вілкоксона незалежно від розміру вибірки, але , наприклад, емптора , чи слід завжди вибирати непараметричний тест, порівнюючи два, мабуть, ненормальні розподіли? Єва Сковлунд та Ґрете У. Фенста .

Я ще не знайшов подібних результатів для парних даних


Я ціную цитати! Для уточнення, чи посилається на "Welch U", той самий тест також відомий як "Welch t" або "Welch-Aspin t", або (як я, можливо, неправильно називав це в питанні) "t тест з корекцією Welch" ?
Срібна рибка

Наскільки я розумію з статті, Welch U - це не звичайний Welch-Aspin - він не використовує рівняння Вельха – Саттерватвайта для ступенів свободи, а формула, яка має різницю куба і квадрата вибірки розмір.
Жак Вайнер

Це все-таки t-тест, хоча, незважаючи на свою назву? Скрізь, де я шукаю "Welch U", здається, я вважаю, що це стосується Welch-Aspin, що засмучує.
Срібна рибка

3

З урахуванням наступних посилань:

Чи є тестування на нормальність "по суті марним"?

Необхідність та найкращий спосіб визначення нормальності даних

Для спрощення речей, оскільки непараметричні тести досить добре навіть для звичайних даних, чому б не використовувати їх завжди для невеликих зразків.


1

Моделювання різниці серед популяцій гамма

Порівнюючи t-тест і тест Манна Вітні

Підсумок результатів

  • Коли дисперсія двох сукупностей однакова, тест Манна Вітні має більшу справжню потужність, але і більшу істинну помилку типу 1, ніж t-тест.
  • H0
  • Коли дисперсія двох сукупностей відрізняється, тест Манна Вітні призводить до великої помилки типу 1, навіть коли засоби однакові. Це очікується, оскільки тести Манна Вітні на різницю в розподілах, а не на засоби.
  • Тест t стійкий до відмінностей у дисперсії, але однаковий спосіб

Експеримент 1) Різні засоби, однакова дисперсія

θ

  • X1k=0.5θ=1E[X1]=kθ=0.5Var[X1]=kθ2=0.5
  • X2k=1.445θ=0.588235 E[X2]=.85Var[X2]=.5

X1X2X1X2

d=(.85.5)/.5=0.5

p

  • H0:μX1=μX2=0.5
  • H1:μX1μX2

P(reject|H0)P(reject|H1)H0H1

Джерела:

Розподіл населення

введіть тут опис зображення

Результати моделювання

введіть тут опис зображення

Обговорення

  • N=10
  • Для всіх розмірів вибірки тест Манна Вітні має більшу потужність, ніж t-тест, а в деяких випадках коефіцієнт 2
  • Для всіх розмірів зразків тест Манна Вітні має більшу помилку типу I, і це на коефіцієнт або 2 - 3
  • t-тест має низьку потужність для невеликого розміру зразка

Обговорення : коли дисперсія двох сукупностей дійсно однакова, тест Манна Вітні значно перевершує t-тест за потужністю за малим розміром вибірки, але має більш високий показник помилок типу 1


Експеримент 2: Різні відхилення, те саме значення

  • X1k=0.5θ=1E[X1]=kθ=.5Var[X1]=kθ2=.5
  • X2k=0.25θ=2 E[X2]=.5Var[X2]=1

H1Var[X1]=Var[X2]Var[X1]Var[X2]

Обговорення Результати моделювання показують , що Т-тест дуже стійкий до різних дисперсії, і помилка типу I близька до 5% для всіх розмірів вибірок. Як і очікувалося, тест Манна Вітні в цьому випадку працює погано, оскільки не є тестуванням на різницю в засобах, а на різницю в розподілах

введіть тут опис зображення

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.