Я б не назвав «експонентність» особливо сильно перекошеною. Наприклад, її журнал є чітко лівим косим, а його момент - лише 2.
н
а) Чисельник тестової статистики повинен бути точним: Якщо дані незалежні від експоненції із загальною шкалою (і не є суттєво більш важкими, ніж у них), то їх середні показники розподіляються гамма з параметром форми, рівним кількості спостережень. Її розподіл виглядає дуже нормально для параметра форми більше, ніж приблизно 40 (залежно від того, наскільки далеко в хвіст потрібна точність).
Це здатне до математичного доказування, але математика - це не наука. Ви можете перевірити це емпіричним шляхом, звичайно, за допомогою моделювання, але якщо ви неправі в експоненційності, вам можуть знадобитися більші зразки. Ось як виглядає розподіл вибіркових сум (а значить, і вибіркових значень) експоненціальних даних, коли n = 40:
Дуже злегка косий. Ця косисть зменшується у міру того, як квадратний корінь розміру вибірки. Так що при n = 160 це наполовину менше перекосу. При n = 640 це чверть нахилу:
Те, що це ефективно симетрично, можна побачити, перевернувши його про середнє значення та накресливши його зверху:
Синій - оригінал, червоний - перевернутий. Як бачите, вони майже випадкові.
-
n = 40
n = 500
-
c) Однак насправді важливим є розподіл всієї статистики під нуль. Нормальності чисельника недостатньо, щоб t-статистика мала t-розподіл. Однак у випадку експоненціальних даних це теж не є великою проблемою:
n = 40n = 500n = 500
Однак зауважте, що для фактично експоненціальних даних стандартне відхилення буде різним лише у тому випадку, якщо засоби різні. Якщо експоненціальна презумпція є такою, то під нульовим значенням не потрібно турбуватися про різні відхилення населення, оскільки вони мають місце лише за альтернативи. Отже, t-тест з рівномірною дисперсією все-таки повинен бути добре (у цьому випадку вищевказане хороше наближення, яке ви бачите на гістограмі, може бути навіть трохи кращим).
2) Створення журналів все ж може допомогти вам зрозуміти це
журналλ1≠ журналλ2λ1≠ λ2
[Якщо ви робите цей тест у журналах, я б схильний запропонувати зробити тест на рівну дисперсію в цьому випадку.]
Отже - за допомогою простого втручання, можливо, речення чи двох, що виправдовують зв'язок, аналогічно тому, що я маю вище, ви повинні мати можливість писати свої висновки не про журнал метрики участі, а про саму метрику участі.
3) Є багато іншого, що ти можеш зробити!
а) ви можете зробити тест, придатний для експоненціальних даних. Неважко отримати тест на основі коефіцієнта ймовірності. Як це буває, для експоненціальних даних ви отримуєте невеликий зразок F-тесту (заснований на співвідношенні засобів) для даної ситуації в єдиному випадку; обидві хвостові ЛРТ зазвичай не мають рівних пропорцій у кожному хвості для малих розмірів вибірки. (Це повинно мати кращу потужність, ніж t-тест, але потужність для t-тесту повинна бути цілком розумною, і я б очікував, що у ваших розмірах вибірки не буде великої різниці.)
б) ви можете зробити тест на перестановку - навіть базувати його на t-тесті, якщо вам подобається. Тож єдине, що змінюється, - це обчислення р-значення. Або ви можете зробити якийсь інший тест на перекомпонування, наприклад тест на основі завантаження. Це має мати гарну потужність, хоча це частково залежатиме від того, яку статистику тесту ви виберете щодо розподілу, який ви маєте.
в) можна зробити непараметричний тест на основі рангів (наприклад, Вілкоксона-Манна-Вітні). Якщо ви вважаєте, що якщо розподіли різняться, то вони відрізняються лише коефіцієнтом масштабу (підходить для різноманітних косих розподілів, включаючи експоненціальний), то ви навіть можете отримати довірчий інтервал для відношення параметрів шкали.
[З цією метою я б запропонував працювати в масштабі журналу (зсув розташування в журналах є журналом зрушення масштабу). Це не змінить p-значення, але дозволить вам експоненціалізувати оцінку точки та межі CI, щоб отримати інтервал для зсуву шкали.]
Це теж має, як правило, мати досить гарну силу, якщо ви знаходитесь в експоненціальній ситуації, але, швидше за все, не так добре, як використання t-тесту.
Посилання, що розглядає значно ширший набір випадків альтернативи зміщення місця розташування (наприклад, з дисперсією та неоднорідністю косості під нулем, наприклад)
Fagerland, MW та L. Sandvik (2009),
"Виконання п'яти двопробних тестів локації для перекошених розподілів з неоднаковими варіаціями",
Сучасні клінічні випробування , 30 , 490–496
Як правило, рекомендується рекомендувати U-тест Welch (окремий один із декількох тестів, розглянутих Welch, і єдиний, який вони протестували). Якщо ви не використовуєте абсолютно ту саму статистику Welch, рекомендації можуть дещо відрізнятися (хоча, ймовірно, не набагато). [Зверніть увагу, що якщо ваші дистрибуції експоненціальні, ви зацікавлені в альтернативній шкалі, якщо ви не візьмете журнали ... в цьому випадку у вас не буде неоднакових варіацій.]