Тест на придатність: питання про тест Андерсона – Дарлінга та критерій Крамера – фон Мізеса


10

Я читаю веб-сторінки на користь тестів на придатність, коли потрапив до тесту Андерсона – Дарлінга та критерію Крамера – фон Мізеса .

Поки я отримав бал; здається, тест Андерсона – Дарлінга та критерій Крамера – фон Мізеса схожі, лише засновані на іншій ваговій функції . Також є варіант критерію Крамера – фон Мізеса під назвою тест Ватсона .w

В основному у мене тут два питання

  1. Результатів Google щодо цих двох методів не так багато; вони все ще є найсучаснішими? або замінено вже на якісь кращі підходи?

    Це трохи несподівано, оскільки згідно з цим документом про порівняння потужностей тестів Шапіро – Вілка, Колмогорова – Смірнова, Лілліфорса та Андерсона-Дарлінга , AD працює досить добре; завжди краще, ніж Lilliefors та KS, і дуже близький до тесту SW, який спеціально розроблений для нормального розподілу.

  2. Який довірчий інтервал для таких тестів?

    Для тестів AD, CM та Watson я бачив змінну тестової статистики, визначену на сторінках wiki, але не знайшов інтервал довіри.

    Для тесту на KS все зрозуміло просто: на сторінці wiki інтервал довіри визначається символомKαK

Відповіді:


4

Не може бути єдиного найсучаснішого для пристосованості (наприклад, ніякого тестування UMP для загальних альтернатив не буде, і насправді нічого навіть не наближається - навіть високо оцінені тести всенародної служби мають жахливу силу в деяких ситуаціях).

Загалом, вибираючи тестову статистику, ви вибираєте види відхилень, які найважливіше виявити та використовувати тестову статистику, яка є хорошою для цієї роботи. Деякі тести дуже добре підходять для найрізноманітніших цікавих альтернатив, що робить їх гідним вибором за замовчуванням, але це не робить їх "сучасними".

"Андерсон Дарлінг" все ще дуже популярний і з поважних причин. Тест Креймера-фон Мізеса в наші дні набагато менше використовується (на мій подив, тому що він, як правило, кращий за Колмогорова-Смірнова, але простіший за Андерсона-Дарлінга - і часто має кращу потужність, ніж він на відмінності "в середині" розподіл)

Усі ці тести страждають від упередженості щодо деяких альтернатив, і легко знайти випадки, коли Андерсон-Дарлінг робить набагато гірше (жахливо, справді), ніж інші тести. (Як я припускаю, це більше «коней на курси», ніж один тест, щоб керувати ними всіма). На жаль, це питання мало приділяється цьому питанню (що найкраще підбирає відхилення, які для мене найбільше важливі?), На жаль.

Ви можете знайти деяке значення в деяких із цих публікацій:

Є Шапіро – Вілк найкращим тестом на нормальність? Чому він може бути кращим за інші тести, такі як Андерсон-Дарлінг?

2 Зразок Колмогорова-Смірнова проти Андерсона-Дарлінга проти Крамера-фон-Мізеса (про тести двох зразків, але багато тверджень переносяться

Мотивація відстані між розподілами Колмогорова (більш теоретичне обговорення, але є кілька важливих моментів щодо практичних наслідків)


Я не думаю, що вам не вдасться сформувати довірчий інтервал для cdf у статистиці Cramer-von Mises та Anderson Darline, оскільки критерії базуються на всіх відхиленнях, а не просто на найбільшому.


Я прийняв "сучасне мистецтво", щоб означати щось, що знаходить застосування, яке не застаріло. Існування декількох визначень корисності придатності повинно сигналізувати нам про те, що корисність - це не єдина концепція. Вважайте, що "добро" залежить від того, "чому" ми регресуємо. Припустимо, ми підходимо Моделі А до даних B, щоб отримати найкращий предиктор ефекту С. Тоді "хороший" - найкращий предиктор С, а не В. Однак, найчастіше питання про те, чим відрізняються В і С, ігнорується.
Карл

1
@Carl ви можете перевірити словник (або вікіпедію) про те, що зазвичай розуміється під рівнем мистецтва - ваше тлумачення фрази не таке, як більшість людей читають фразу. Словники говорять так: " найновіший етап розвитку, що включає новітні ідеї " та " найвищий рівень розвитку в даний момент часу " та " передовий край, використовуючи новітні технології ". У цьому контексті - тестування на придатність - ця фраза передбачає "найкраще, що ми можемо зробити зараз". Я наполягаю, що це не те, що ви насправді можете сказати про будь-який єдиний тест. ...
ctd

2
... наприклад, можна сказати, що такі популярні тести, як Shapiro-Wilk (хоча вони дуже популярні у тестуванні на нормальність), мають конкурентів із значно кращою потужністю (наприклад, див. Shapiro & Chen 1995) - але не у кожній ситуації. Немає єдиного найкращого вибору тесту (а значить, немає фактичного "стану мистецтва"). Звичайно, я згоден, що те, що найкраще (найсучасніший) залежить від обставин, - це сенс моєї відповіді; можливі відповіді безліч - щось хороше в одній ситуації може бути дуже поганим в іншій. Варто знати, коли тести працюють добре, а не просити "що найкраще", як ніби це одна річ.
Glen_b -Встановити Моніку

Щоправда, ваше визначення правильніше. Однак існує набагато більше методів, ніж тести методів, і "найсучасніший" - це значною мірою вигадка, тобто "мистецтво" не має "стану", все, що є, є головними героями. Будь-яка реакція на таке туманне становище однозначна. Я сказав «так», а ви сказали «ні», і ми обидва сказали те саме.
Карл

До речі, питання було "найсучаснішим" або "заміненим", яке я вважав "застарілим, або не застарілим". Отже, для моєї відповіді з'явився контекст: "Будь ласка, припустіть, що" найсучасніший "та" замінити "- це антоніми, і будь ласка, виберіть один із них." Ви вірні, що це не антоніми, я відповідав у контексті, і ви вирішили просити це питання. Отже, моя була ввічлива відповідь. І я збираюся проголосувати за вашу відповідь, бо вважаю це інформативним, якщо не надто ввічливим.
Карл

2

n=400 призначений лише для нормального тестування на розподіл. Тест Крамера-фон Мізеса та Пірсона Chi-квадрата є загальними для всіх пристосувань розподілу до гістограм, і я думаю, що тест Крамера-фон Мізеса має більшу потужність, ніж Пірсон Хі-квадрат. Тест Крамера-фон Мізеса

** Питання 1: ... чи ... ці два методи ... все ще є найсучаснішими? або замінено вже на якісь кращі підходи? Запитання 2 Який інтервал довіри для таких тестів? **

Відповідь: Вони є сучасними. Однак іноді ми хочемо, щоб довірчі інтервали не були ймовірностями. Порівнюючи ці методи один з одним, ми говоримо про потужність, а не про довірчі інтервали. Іноді корисність аналізується за допомогою AIC, BIC та інших критеріїв на противагу ймовірності гарного пристосування, а іноді критерій придатності є невідповідним, наприклад, коли корисність не відповідає критеріям пристосованості . В останньому випадку нашою регресійною ціллю може бути фізична величина, не пов'язана з приміркою, наприклад, див. Tk-GV .


NB Тест Андерсона-Дарлінга - це зважена версія тесту Крамера-фон Мізеса; &, як воно, підходить для будь-якого безперервного розповсюдження.
Scortchi
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.