Чи можна використовувати тест Колмогорова-Смірнова та оцінити параметри розподілу?


14

Я читав, що тест Колмогорова-Смірнова не слід використовувати для перевірки правильності придатності розподілу, параметри якого були оцінені зразком.

Чи є сенс розділити мою вибірку надвоє і використовувати першу половину для оцінки параметрів, а другу для KS-тесту?

Спасибі заздалегідь


1
Який розподіл ви хочете протестувати та чому?
gung - Відновіть Моніку

Я підозрюю, що дані слід за експоненціальним розподілом.
сортега

Відповіді:


13

Кращим підходом є обчислення критичного значення p-значення за допомогою моделювання. Проблема полягає в тому, що коли ви оцінюєте параметри з даних, а не використовуєте гіпотезовані значення, тоді розподіл статистики KS не відповідає нульовому розподілу.

Ви можете замість цього проігнорувати p-значення з тесту KS і замість цього змоделювати купу наборів даних із розподілу кандидатів (із значущим набором параметрів) того ж розміру, що і ваші реальні дані. Потім для кожного набору оцінюйте параметри і робіть тест KS, використовуючи оцінені параметри. У вас p-значення буде пропорцією статистичних даних тестів із імітованих наборів, які є більш кращими, ніж для ваших вихідних даних.


2
Я вважаю рішення трохи заплутаним (принаймні для мене); що ви розумієте під "значущим набором параметрів" для розподілу кандидата? Ви спочатку не знаєте параметрів розподілу кандидатів, як би ви знали, що таке "значущий набір параметрів"?
Нестор

Ви можете спробувати різні набори параметрів, щоб побачити, чи змінює це зміна чи ні (для нормальних це не так, але деякі розподіли можуть). Тоді подумайте про науку, що стоїть за вашими даними, або поговоріть із фахівцем у цій галузі, ви повинні мати можливість отримати загальне уявлення про те, з чого почати, наприклад, я знаю, який середній зріст дорослих чоловіків у Нігерії, але я досить впевнений, що він позитивний і менше 3 метрів.
Грег Сніг

@GregSnow Я наткнувся на цю посаду, оскільки це стосується моєї поточної роботи. Мені було цікаво, чи є якесь теоретичне обґрунтування запропонованого вами методу? Тобто, як ми можемо знати, що запропоноване "р-значення" дійсно рівномірно розподілено від 0 до 1? Запропоноване p-значення не здається звичайним p-значенням, оскільки гіпотеза Нуля тепер є набором розподілів
renrenthehamster

@renrenthehamster, у вас є хороший момент, тому я запропонував імітувати за різних умов. Для деяких розподілів (я б очікував нормальних) це не матиме великого значення, але для інших можуть знадобитися різні відсічки для різних істинних значень параметрів. Якщо це так, то користувачеві (вам) потрібно знайти значущу нуль для перевірки, який включає в себе як форму розподілу, так і набір або діапазон параметрів, які вам зручні.
Грег Сніг

1
@LilyLong, моделювання було набагато складніше і забирає багато часу, тому тести були розроблені для швидшого / легшого, ніж моделювання, деякі з ранніх таблиць були створені за допомогою моделювання. Зараз багато тестів можна легко замінити симуляцією, але, мабуть, будемо з нами ще деякий час через традиції та простоту.
Грег Сніг

7

Розщеплення зразків, можливо, може зменшити проблему з розподілом статистики, але це не усуне.

Ваша ідея уникає питання, що оцінки будуть "занадто близькими" щодо значень населення, оскільки вони базуються на одній вибірці.

Ви не уникаєте проблеми, яку вони все ще оцінюють. Розподіл тестової статистики не є табличним.

У цьому випадку це збільшує швидкість відхилення під нуль, а не різко зменшує її.

Кращий вибір - використовувати тест, коли параметри не вважаються відомими, наприклад, Shapiro Wilk.

Якщо ви приєдналися до тесту Колмогорова-Смірнова, ви можете скористатися тестом Лілліфорса.

Тобто використовувати статистику KS, але розподіл тестової статистики відображає ефект оцінки параметрів - імітують розподіл статистики тесту за оцінкою параметрів. (Це більше не є розподілом, тому вам потрібні нові таблиці для кожного розподілу.)

http://en.wikipedia.org/wiki/Lilliefors_test

Liliefors використовував моделювання для нормального та експоненціального випадку, але ви можете легко зробити це для будь-якого конкретного розподілу; у чомусь на зразок R - це питання моментів, щоб імітувати 10 000 чи 100 000 проб та отримати розподіл тестової статистики під нулем.

[Альтернативою може бути розгляд Андерсона-Дарлінга, у якого є той самий випуск, але який, судячи з книги Д'Агостіно і Стівенса ( методики доброго пристосування ), видається менш чутливим до цього. Ви можете адаптувати ідею Lilliefors, але вони пропонують порівняно просту корекцію, яка, здається, працює досить добре.]

Але є й інші підходи; Є сімейства плавних тестів на придатність, наприклад (див. книгу Рейнера та Беста), які в ряді конкретних випадків можуть мати справу з оцінкою параметрів.

* ефект все ще може бути досить великим - можливо, більшим, ніж зазвичай вважали прийнятним; Момо правильно висловити занепокоєння з цього приводу. Якщо рівень помилок вищого типу I (і більш плоска крива потужності) є проблемою, то це може не бути поліпшенням!


1
Ви могли б пояснити, як "розбиття вибірки вирішило б проблему з розподілом статистики"? На мою думку, параметри будуть оцінені з підпроборону, а потім підключені до випробування KS другої підпроби, але параметри все одно будуть пов'язані з помилкою вибірки, яка не враховується при нульовому розподілі. Мені це звучить так, ніби можна з подібною ідеєю розділити вибірку від нормального розподілу, оцінити стандартні відхилення в одній підпробі і провести середнє порівняння зі стандартним нормальним, а не t-dist у другому підпробі.
Момо

1
@Momo 'вирішити' занадто сильно; "зменшити" краще. Якщо параметри оцінюються за тими ж спостереженнями, які ви тестуєте, тоді - якщо ви не врахуєте цей ефект - відхилення вибірки від розподілу будуть «занадто малі» - швидкість відхилення знижується. Використання іншого зразка видаляє цей ефект. Значення параметрів, отримані в результаті оцінки другого зразка, все ще страждають від помилки вибірки. Це буде мати певний вплив на тест (підштовхує до рівня помилок типу I), але не матиме драматичного ефекту зміщення, якщо використання однакових даних для обох.
Glen_b -Встановіть Моніку

@Momo Я відредагував свій коментар, щоб видалити "вирішити" і замінити його деяким поясненням
Glen_b -Встановити Моніку

5

Я боюся, що це не вирішить проблему. Я вважаю, що проблема полягає не в тому, що параметри оцінюються з одного і того ж зразка, а з будь-якого зразка взагалі. Виведення звичайного нульового розподілу тесту KS не враховує жодної помилки оцінки параметрів еталонного розподілу, а швидше вважає їх даними. Див. Також Дурбін 1973, який детально обговорює ці питання та пропонує рішення.


1
Це фактично дві окремі проблеми. Якщо ви використовуєте ті самі дані, щоб оцінити параметри і зробити KS-тест, ви, як правило, побачите завищені p-значення, оскільки ви по суті адаптуєте розподіл до даних перед тестуванням на нього. Якщо ви використовуєте два незалежні набори зразків, це не так. Однак неточні оцінки параметрів можуть зменшити значення р, отримані в цьому випадку, оскільки тепер ви по суті перевіряєте проти (трохи) неправильного розподілу.
fgp
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.