почув [...], що високий позитивний куртоз залишків може бути проблематичним для точних тестів гіпотез та довірчих інтервалів (і, отже, проблем зі статистичним висновком). Це правда, і якщо так, то чому?
Для деяких видів тестування гіпотез це правда.
Чи не може високий позитивний куртоз залишків не вказувати на те, що більшість залишків знаходяться поблизу середнього залишкового значення 0 і тому є менш великі залишки?
Немає.
Схоже, ви пов'язуєте дисперсійну концепцію з куртозом. Якби дисперсія була меншою, схильність до більш малих залишків та меншої кількості великих залишків зійшлася б. Уявіть, що ми тримаємо стандартне відхилення постійним, поки ми змінюємо куртоз (тому ми безумовно говоримо про зміни куртозу, а не про дисперсію).
Порівняйте різні варіанти (але той же куртоз):
з різним куртозом, але однаковою дисперсією:
(зображення з цієї публікації )
Високий куртоз у багатьох випадках асоціюється з більш малими відхиленнями від середнього - більше малих залишків, ніж ви знайдете при нормальному розподілі .. але, щоб стандартне відхилення було таким же значенням, ми також повинні мати більше великі залишки (тому що, якщо мати більше малих залишків, типова відстань від середньої буде меншою). Щоб отримати більше як великих залишків, так і малих залишків, у вас буде менше залишків «типового розміру» - тих, що мають одне стандартне відхилення від середнього.‡
‡ це залежить від того, як ви визначаєте "малість"; Ви не можете просто додати багато великих залишки і постійна фіксація відхилень, потрібно що - то компенсувати це - але за деякими даними заходи «маленькі» ви можете знайти шляхи підвищення ексцесу без збільшення цієї конкретної міри. (Наприклад, вищий куртоз не означає автоматично більш високий пік)
Більш високий куртоз має тенденцію до більшої кількості залишків, навіть якщо ви тримаєте дисперсію постійною.
[Крім того, в деяких випадках концентрація малих залишків може призвести до більшої проблеми, ніж додаткова частка найбільшої кількості залишків - залежно від того, на що ви дивитесь.]
У будь-якому випадку давайте подивимось на приклад. Розглянемо однопробний t-тест та розмір вибірки 10.
Якщо ми відкинемо нульову гіпотезу, коли абсолютне значення t-статистики перевищує 2.262, тоді, коли спостереження незалежні, однаково розподілені від звичайного розподілу, а середня гіпотеза - справжня середня сукупність, ми відкинемо нуль гіпотеза 5% часу.
Розглянемо конкретний розподіл із значно більшим куртозом, ніж нормальний: 75% населення мають свої значення, отримані від нормального розподілу, а решта 25% мають свої значення, отримані від звичайного розподілу зі стандартним відхиленням у 50 разів більше.
Якщо я правильно порахував, це відповідає куртозу 12 (надлишок куртозу 9). Отриманий розподіл набагато більше, ніж нормальний, і має важкі хвости. Щільність порівнюється із звичайною щільністю нижче - вищий пік ви бачите, але на лівому зображенні не можна бачити важчий хвіст, тому я також побудував логарифм густин, який розтягує нижню частину зображення і стискає верх, полегшуючи побачити як вершину, так і хвости.
Фактичний рівень значимості для цього розподілу , якщо ви здійснити «5%» один-зразок Т-тест з нижче 0,9%. Це досить драматично, і крива потужності досить сильно тягне вниз.n=10
(Ви також побачите суттєвий вплив на охоплення довірчих інтервалів.)
Зауважте, що різний розподіл із таким самим куртозом, як і той, матиме різний вплив на рівень значущості.
Отже, чому рівень відхилення знижується? Це тому, що важчий хвіст призводить до декількох великих людей, що мають трохи більший вплив на стандартне відхилення, ніж це на середнє; це впливає на t-статистику, оскільки призводить до збільшення величин t між -1 і 1, зменшуючи частку значень у критичній області.
Якщо ви берете зразок, який виглядає цілком узгодженим з тим, що він прийшов від нормального розподілу, середнє значення якого досить далеко вище гіпотезованого означає, що воно значне, а потім ви берете спостереження, що знаходиться найдальше від середнього, і витягуєте його ще далі (тобто зробіть середнє значення навіть більшим, ніж під ), ви фактично зробите t-статистику меншою .H0
Дозвольте мені показати вам. Ось зразок розміру 10:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 4.23
Уявіть, що ми хочемо протестувати його на (однопробний t-тест). Виявляється, середнє значення вибірки тут становить 2,68, а стандартне відхилення вибірки - 0,9424. Ви отримуєте t-статистику 2,228 - просто в області відхилення для 5% тесту (р-значення 0,0484).H0:μ=2
Тепер зробіть це найбільше значення 50:
1.13 1.68 2.02 2.30 2.56 2.80 3.06 3.34 3.68 50
Зрозуміло, що ми підтягуємо середину вгору, тому вона повинна вказувати на різницю навіть більше, ніж це було раніше, правда? Ну, ні, це не так. Т-статистика йде вниз . Зараз це 1,106, а р-значення досить велике (близько 30%). Що сталося? Ну, ми потягли середнє значення (до 7,257), але стандартне відхилення збільшилося за 15.
Стандартні відхилення дещо чутливіші до людей, що випадають, ніж кошти - коли ви вкладаєте інше, ви схильні натискати одноразову t-статистику до 1 або -1.
Якщо є шанс декількох людей, що вижили, багато того ж відбувається, тільки вони іноді можуть бути на протилежних сторонах (у такому випадку стандартне відхилення ще більше завищене, тоді як вплив на середню зменшується порівняно з однією стороною), тому t-статистика як правило, рухається ближче до 0.
Подібні речі тривають і з низкою інших поширених тестів, які передбачають нормальність - більш високий куртоз, як правило, асоціюється з більш важкими хвостами, а це означає, що більша кількість людей, що знаходяться більше, а це означає, що стандартні відхилення надуваються відносно засобів і тому відмінності, які ви хочете підібрати потрапити "заграв" ударом випускників на тест. Тобто мала потужність.