Які стандартні статистичні тести можна побачити, чи слід за експоненціальними або нормальними розподілами?


12

Які стандартні статистичні тести можна побачити, чи слід за експоненціальними або нормальними розподілами?


2
Найкращий тест, ймовірно, залежить від того, чому саме ви тестуєте на нормальність / експонентність (тому деякий фон буде корисним), але ви завжди можете використовувати тест Колмогорова Смірнова, щоб перевірити, чи відповідає даний набір даних будь-якому заздалегідь заданому розподілу ( en.wikipedia .org / wiki / Колмогоров% E2% 80% 93Smirnov_test ). Існує маса методів, які використовуються для нормального розповсюдження: en.wikipedia.org/wiki/Normality_test
Макрос

Змінні, з якими я маю справу, ймовірно, слідуватимуть нормальним або експоненціальним розподілам. Також у мене є фактор, про який я не дбаю. Однак він накладає деякі змінні на мої дані. Отже, я хотів би нормалізувати змінні, щоб придушити дію цього неприємного чинника. Отже, я подумав, що краще нормалізувати кожну змінну на основі їх базового розподілу. Ось чому мені потрібен тест, щоб визначитися між цими двома розподілами.
смо

1
Що означає нормалізація у цьому реченні: Я вважав, що краще нормалізувати кожну змінну на основі їх базового розподілу ?
Макрос

2
Хоча це не тест, сюжети QQ є приголомшливими для швидкого інтуїтивного перевірки відповідності ваших даних розподілу.
naught101

Відповіді:


13

Здається, ви намагаєтеся вирішити, чи моделювати ваші дані, використовуючи звичайний або експоненціальний розподіл. Мені це здається дещо дивним, оскільки ці дистрибуції сильно відрізняються один від одного.

Нормальний розподіл симетричний, тоді як експоненціальний розподіл сильно перекошений вправо, без негативних значень. Зазвичай зразок експоненціального розподілу буде містити багато спостережень, порівняно близьких до та декілька спостережень, які відхиляються далеко від правої частини від . Цю різницю часто легко помітити графічно.000

Ось приклад, де я моделював спостережень із нормального розподілу із середнім значенням та дисперсією та експоненціальним розподілом із середнім значенням та дисперсією :2 4 2 4n=1002424

Нормальний та експоненційний: модельовані дані

Симетрію нормального розподілу та косості експоненціалу можна побачити за допомогою гістограми, боксерських і розсипних схем, як показано на малюнку вище.

Ще один дуже корисний інструмент - QQ-сюжет . У наведеному нижче прикладі точки повинні приблизно слідувати лінії, якщо вибірка виходить із нормального розподілу. Як бачите, це стосується звичайних даних, але не для експоненціальних даних.

QQ-графіки для імітованих даних

Якщо графічного обстеження з якихось причин недостатньо для вас, ви все одно можете скористатися тестом, щоб визначити, нормальний чи експоненціальний ваш розподіл. Оскільки звичайний розподіл є сімейством масштабів та місцеположень, ви хочете використовувати тест, інваріантний за зміною масштабу та місця розташування (тобто результат тесту не повинен змінюватися, якщо ви зміните вимірювання на дюйми до сантиметрів або додасте до всіх ваших спостережень).+1

Коли нульова гіпотеза полягає в тому, що розподіл є нормальним, а альтернативна гіпотеза полягає в тому, що вона експоненціальна, найпотужніший тест на інваріантне розташування та масштаб дається статистикою де - середня вибірка, - найменше спостереження у вибірці, а - стандартне відхилення вибірки. Нормальність відхиляється на користь експоненціальності, якщо занадто великий.ˉ x x(1)sTE,N

TE,N=x¯x(1)s
x¯x(1)sTE,N

Цей тест насправді є односторонньою версією тесту Груббса для людей, що вижили . Ви знайдете це в більшості статистичних програм (але переконайтеся, що ви використовуєте правильну версію - є кілька альтернативних статистичних даних тесту, які використовуються для випробування поза межами!).

Посилання на є найпотужнішим тестом:TE,N Розділ 4.2.4 Тестування на нормальність HC Thode.


ОП запитала, чи перевіряєте ви на нормальність, який тест ви обрали б для окремої ситуації, якщо ви перевірите на експоненціальний тест, який би ви використовували. Я не читав inot твердження, що він пропонує спробувати обидва тести на одному наборі даних.
Майкл Р. Черник

Я інтерпретував це таким чином, оскільки в коментарях, що подаються до цього питання, ОП написав: "Змінні, з якими я маю справу, ймовірно, будуть слідувати нормальним або експоненціальним розподілам. [...] Тому мені потрібна перевірка, щоб вирішуйте між цими двома розподілами ".
MånsT

Я цього не помічав. У цьому випадку ваша відповідь дуже доречна. Я відповідав так, ніби він тестував по одному.
Майкл Р. Черник

@Michael: Я так трактував це, коли читав також оригінальне запитання, але вирішив написати свою відповідь, прочитавши коментар. В іншому випадку я не думаю, що до Вашої (+1) відповіді було б багато чого додати (окрім невеликих зауважень, які я зробив у коментарі).
MånsT

5

Для експоненціального розподілу можна використовувати тест, який називається тестом Морана або Бартлетта. Тестова статистика включає середнє значення вибірки , а також середнє значення вибірки зареєстрованого Під нульовою гіпотезою маємо приблизно і працює двостороння тестова робота. Цей тест розроблений проти гамма-альтернатив.¯ Y ·· увійти Y Y я В п = б п × { журнал ˉ Y - ¯ увійти Y }BnY¯logY¯Yi B nχ 2 ( n - 1 )

Bn=bn×{logY¯logY¯}bn=2n×{1+(n+1)/(6n)}1
Bnχ2(n1)

Дивіться KC Kapur та LR Lamberson Надійність в інженерному дизайні . Wiley 1977.


2
Я зіткнувся з деякими більш новими та великими ресурсами щодо тестування на експоненційність. 1) Стаття: A Henze, N. and Meintanis, SG (2005): «Останні та класичні тести на експоненційність: частковий огляд із порівняннями». Метрика, вип. 61, с. 29–45. 2) пакет CRAN R з назвою "exptest", який здійснює тести згаданої статті.
Ів

Розподіл B_n не дуже зрозумілий. Це квадрат Chi з n-1 df, або квадрат Chi з n-1 df, помножений на n-1?
Dovini Jayasinghe

Працює як написано. Перевірити це можна за допомогою кількох рядків коду R.
Ів

Дякую. Отже, це повинно бути множення, як я міг бачити. У сенсі ступеня свободи повинна бути n-1?
Dovini Jayasinghe

Вибачте, я пропустив пункт у вашому запитанні про позначення. Отже, статистика випливає приблизно з розподілу chi-квадрата з ступенем свободи. н - 1Bnn1
Ів

4

Для нормальності Андерсон-Дарлінг та Шапіро-Вілк вважаються найкращими. Для експоненціального тесту Ліллефорса розроблений спеціально для нього.


5
цю відповідь можна було б покращити трохи детальніше про те, чому кожен тест вважається хорошим / кращим, ніж інші.
naught101

Ці випробування кращі в тому сенсі, який є найпотужнішим для відхилень від нормальних (Андерсон-Дарлінг) та експоненціальних (Ліллефорс). Я не думаю, що на основі такої форми тесту легко дати зрозуміле пояснення.
Майкл Р. Черник

3
@Michael: Тест Андерсона-Дарлінга на нормальність (як і джито Shapiro-Wilk) має поважну силу проти широкого спектру альтернатив, але він, звичайно, не найпотужніший (ні в цілому, ні в середньому). Вибір тесту повинен залежати від альтернативи. Я ніколи не чув про тест Ліллефорса - ти мав на увазі тест Лілліфорс (який насправді є тестом на нормальність, а не тестом на експоненціальність)?
MånsT

Звичайно, я мав на увазі тест Ліллефорса на експоненційність, оскільки це було те, про що я пропонував припущення щодо експоненціального розподілу. Я перерахував Шапіро-Вілка та Андерсона-Дарлінга, оскільки, наскільки мені відомо, вони є одними з найпотужніших серед тестів на нормальність. Які більш потужні тести, на які ви посилаєтесь?
Майкл Р. Черник

1
Це залежить від того, який тип альтернативи у вас є. Наприклад, щодо альтернатив перекосу, наприклад, нахил зразка часто є більш потужним, ніж SW та AD. Останні - це тести всебічного вмісту, які в середньому є досить хорошими, але якщо ви знаєте, про яку ненормальність ви переживаєте, краще скористатися направленим тестом (наприклад, тестовим нахилом зразка, який спрямований на скасування альтернатив) .
MånsT

4

Чи розглядали ви графічні методи, щоб побачити, як поводяться дані?

Методи графіка ймовірності зазвичай передбачають ранжування даних, застосування зворотного CDF, а потім побудову результатів на декартовій площині. Це дозволяє вам побачити, чи відхиляється кілька значень від гіпотезованого розподілу і, можливо, враховувати причину відхилення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.