Чи слід використовувати t-тест на сильно перекошених даних? Наукові докази, будь ласка?


15

У мене є зразки з дуже перекошеного (схожого на експоненціальний розподіл) набору даних про участь користувачів (наприклад: кількість повідомлень), які мають різні розміри (але не менше 200), і я хочу порівняти їх середнє значення. Для цього я використовую двопробні непарні т-тести (і t-тести з коефіцієнтом Вельча, коли зразки мали різні відхилення). Як я чув, що для дійсно великих зразків не має значення, що зразок розподіляється нормально.

Хтось, переглядаючи те, що я зробив, сказав, що тести, які я використовую, не підходять для моїх даних. Вони запропонували зареєструвати мої зразки перед тим, як використовувати t-тести.

Я початківець, тому мені здається незрозумілим незрозумілим відповідати на мої дослідницькі питання "метрикою журналу участі".

Вони помиляються? Я помиляюся? Якщо вони помиляються, чи є книга чи науковий документ, який я міг би їх процитувати / показати? Якщо я помиляюся, який тест потрібно використовувати?


1
Т-тест має нормальне припущення щодо розподілу csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Ви можете подумати, що t-розподіл, який наближається до нормального, коли вибірка є достатньо великою.
rdorlearn

6
Що означає «науковий доказ» у цьому контексті?
Glen_b -Встановіть Моніку

1
Я вважав, що припущення полягає в тому, що всі засоби всіх можливих вибірок з певної сукупності повинні бути нормальними. Отже, за CLT, це було б правдою і для мого набору даних.
Мілена Арауджо

1
наукові докази = щось академічне, що стосується: книга, папір тощо
Мілена Арауджо,

Відповіді:


36

Я б не назвав «експонентність» особливо сильно перекошеною. Наприклад, її журнал є чітко лівим косим, ​​а його момент - лише 2.

н

а) Чисельник тестової статистики повинен бути точним: Якщо дані незалежні від експоненції із загальною шкалою (і не є суттєво більш важкими, ніж у них), то їх середні показники розподіляються гамма з параметром форми, рівним кількості спостережень. Її розподіл виглядає дуже нормально для параметра форми більше, ніж приблизно 40 (залежно від того, наскільки далеко в хвіст потрібна точність).

Це здатне до математичного доказування, але математика - це не наука. Ви можете перевірити це емпіричним шляхом, звичайно, за допомогою моделювання, але якщо ви неправі в експоненційності, вам можуть знадобитися більші зразки. Ось як виглядає розподіл вибіркових сум (а значить, і вибіркових значень) експоненціальних даних, коли n = 40:

введіть тут опис зображення

Дуже злегка косий. Ця косисть зменшується у міру того, як квадратний корінь розміру вибірки. Так що при n = 160 це наполовину менше перекосу. При n = 640 це чверть нахилу:

введіть тут опис зображення

Те, що це ефективно симетрично, можна побачити, перевернувши його про середнє значення та накресливши його зверху:

введіть тут опис зображення

Синій - оригінал, червоний - перевернутий. Як бачите, вони майже випадкові.

-

н=40

введіть тут опис зображення

н=500

-

c) Однак насправді важливим є розподіл всієї статистики під нуль. Нормальності чисельника недостатньо, щоб t-статистика мала t-розподіл. Однак у випадку експоненціальних даних це теж не є великою проблемою:

введіть тут опис зображення

н=40н=500н=500

Однак зауважте, що для фактично експоненціальних даних стандартне відхилення буде різним лише у тому випадку, якщо засоби різні. Якщо експоненціальна презумпція є такою, то під нульовим значенням не потрібно турбуватися про різні відхилення населення, оскільки вони мають місце лише за альтернативи. Отже, t-тест з рівномірною дисперсією все-таки повинен бути добре (у цьому випадку вищевказане хороше наближення, яке ви бачите на гістограмі, може бути навіть трохи кращим).


2) Створення журналів все ж може допомогти вам зрозуміти це

журналλ1журналλ2λ1λ2

[Якщо ви робите цей тест у журналах, я б схильний запропонувати зробити тест на рівну дисперсію в цьому випадку.]

Отже - за допомогою простого втручання, можливо, речення чи двох, що виправдовують зв'язок, аналогічно тому, що я маю вище, ви повинні мати можливість писати свої висновки не про журнал метрики участі, а про саму метрику участі.


3) Є багато іншого, що ти можеш зробити!

а) ви можете зробити тест, придатний для експоненціальних даних. Неважко отримати тест на основі коефіцієнта ймовірності. Як це буває, для експоненціальних даних ви отримуєте невеликий зразок F-тесту (заснований на співвідношенні засобів) для даної ситуації в єдиному випадку; обидві хвостові ЛРТ зазвичай не мають рівних пропорцій у кожному хвості для малих розмірів вибірки. (Це повинно мати кращу потужність, ніж t-тест, але потужність для t-тесту повинна бути цілком розумною, і я б очікував, що у ваших розмірах вибірки не буде великої різниці.)

б) ви можете зробити тест на перестановку - навіть базувати його на t-тесті, якщо вам подобається. Тож єдине, що змінюється, - це обчислення р-значення. Або ви можете зробити якийсь інший тест на перекомпонування, наприклад тест на основі завантаження. Це має мати гарну потужність, хоча це частково залежатиме від того, яку статистику тесту ви виберете щодо розподілу, який ви маєте.

в) можна зробити непараметричний тест на основі рангів (наприклад, Вілкоксона-Манна-Вітні). Якщо ви вважаєте, що якщо розподіли різняться, то вони відрізняються лише коефіцієнтом масштабу (підходить для різноманітних косих розподілів, включаючи експоненціальний), то ви навіть можете отримати довірчий інтервал для відношення параметрів шкали.

[З цією метою я б запропонував працювати в масштабі журналу (зсув розташування в журналах є журналом зрушення масштабу). Це не змінить p-значення, але дозволить вам експоненціалізувати оцінку точки та межі CI, щоб отримати інтервал для зсуву шкали.]

Це теж має, як правило, мати досить гарну силу, якщо ви знаходитесь в експоненціальній ситуації, але, швидше за все, не так добре, як використання t-тесту.


Посилання, що розглядає значно ширший набір випадків альтернативи зміщення місця розташування (наприклад, з дисперсією та неоднорідністю косості під нулем, наприклад)

Fagerland, MW та L. Sandvik (2009),
"Виконання п'яти двопробних тестів локації для перекошених розподілів з неоднаковими варіаціями",
Сучасні клінічні випробування , 30 , 490–496

Як правило, рекомендується рекомендувати U-тест Welch (окремий один із декількох тестів, розглянутих Welch, і єдиний, який вони протестували). Якщо ви не використовуєте абсолютно ту саму статистику Welch, рекомендації можуть дещо відрізнятися (хоча, ймовірно, не набагато). [Зверніть увагу, що якщо ваші дистрибуції експоненціальні, ви зацікавлені в альтернативній шкалі, якщо ви не візьмете журнали ... в цьому випадку у вас не буде неоднакових варіацій.]


4
Чудова відповідь! Я був дуже приголомшений, скільки інформації ви запакували в одній публікації
Крістіан Зауер

@Glen_b, це приголомшлива відповідь! Велике спасибі. Ще одне питання: мої зразки походять з одного і того ж набору даних. Я хочу порівняти вибірки користувачів з характеристикою X та користувачів з характеристиками Y. Зразки для користувачів X приблизно ~ 500, а вибірки для користувачів Y - близько ~ 10000. Існує величезна різниця у розмірах, але, схоже, немає великої різниці у їхній формі (дивлячись на графіки щільності та ймовірності). Чи буде проблема використовувати t-тести все-таки?
Мілена Арауджо

Коли ви говорите "величезна різниця у розмірах", ви говорите про розмір вибірки (10000 проти 500) або про типові значення в межах кожної групи? (До речі, це безперервні чи дискретні? Наскільки малі типові мінімальні значення для подібного роду даних? Чи журнали схожі за формою - тобто це просто зсув масштабу, який ми розглядаємо?)
Glen_b -Встановити Моніку

1
Можливо, вам буде краще використовувати таку таблицю. Критична інформація полягає в тому, що це не просто дискретно, але майже всі значення знаходяться на найменшій кількості питань. Якщо ви побудуєте гістограму, побудуйте її без коливань і переконайтесь, що всі низькі значення є окремими (бари для кожного з 0, 1, 2, не поєднуючи їх). Краще відрізати праворуч і поширити ліворуч більше (там, де майже всі дані), якщо ви чітко даєте зрозуміти, що справа більше, якщо ви вирізаєте будь-яку. Включіть інформацію про те, що ви вимірюєте, і чого ви намагаєтеся досягти ... (
ctd

1
@ScottH частина 1.c моєї відповіді вирішує це чітко і дивиться на те, наскільки це має значення в обговорюваному випадку (приблизно експоненціальний розподіл при подібних розмірах вибірки)
Glen_b -Встановити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.