Як правильно застосувати постмеханічний тест Nemenyi після тесту Фрідмана


11

Я порівнюю продуктивність декількох алгоритмів у кількох наборах даних. Оскільки ці показники ефективності не гарантуються нормально розподіленими, я обрав тест Фрідмана за допомогою спеціального тесту Nemenyi на основі Демшара (2006) .

Потім я знайшов ще один документ, який, окрім запропонованих інших методів, таких як тест Quade з подальшим пост-хоковим тестом Шаффера, вони застосовують тест Nemenyi по-різному.

Як правильно застосувати постмеханічний тест Nemenyi?

1. Використання статистики діапазону Studentized?

У статті Демшара говориться про відхилення нульової гіпотези (відсутність різниці в продуктивності двох алгоритмів), якщо середня різниця рангів більша за критичний відстань CD з

CD=qαk(k+1)6N

"де критичні значення qα базуються на статистиці діапазону Studentized, поділеній на "2.

Після деякого копання я виявив, що ви "критичні значення" можете шукати для певних альфа, наприклад у таблиці дляα=0.05 , для нескінченних ступенів свободи (внизу кожної таблиці).

2. або використовуючи нормальний розподіл?

Тільки-но, коли я подумав, що знаю, що робити, знайшов ще один папір, який мене знову збентежив, бо вони використовували лише звичайний розподіл. На сторінці 12 Демшар розповідає подібну річ:

Тестова статистика для порівняння i-го та j-го класу за допомогою цих методів Значення z використовується для визначення відповідної ймовірності з таблиці нормального розподілу, яку потім порівнюють з відповідною . Тести відрізняються тим, як вони регулюють значення для компенсації декількох порівнянь.

z=(RiRj)k(k+1)6N
αα

У цьому пункті він говорив про порівняння всіх алгоритмів з алгоритмом управління, але зауваження "відрізняються тим, як вони коригуються ... для компенсації декількох порівнянь" припускає, що це також має бути справедливим для тесту Неменого.

Тож, що мені здається логічним, - це обчислити значення р- значення на основі тестової статистики , яка зазвичай розподіляється, і виправити цю, поділяючи на .zk(k1)/2

Однак це дає абсолютно різні різницькі відмінності, за яких можна відкинути нульову гіпотезу. І тепер я застряг і не знаю, який метод застосувати. Я сильно схиляюся до того, хто використовує звичайний розподіл , тому що він простіший і логічніший для мене. Мені також не потрібно шукати значення в таблицях, і я не пов'язаний з певними значеннями значущості.

Знову ж таки, я ніколи не працював зі статистикою студійного діапазону, і не розумію цього.

Відповіді:


5

Я також тільки почав розглядати це питання.

Як було сказано раніше, коли ми використовуємо звичайний розподіл для обчислення значень р для кожного тесту, то ці p-значення не враховують багаторазове тестування. Для виправлення та контролю рівня помилок у сімейному режимі нам потрібні деякі корективи. Bonferonni, тобто ділення рівня значущості або множення вихідних p-значень на кількість тестів, є лише одним можливим виправленням. Існує велика кількість інших багаторазових виправлень виправлень p-значення, які в багатьох випадках менш консервативні.

Ці поправки на значення p не враховують специфічну структуру тестів гіпотез.

Мені більше знайоме попарне порівняння вихідних даних замість даних, перетворених за рангом, як у тестах Крускала-Уолліса або Фрідмана. У тому випадку, який є випробуванням Tukey HSD, статистика тесту для кратного порівняння розподіляється відповідно до студизованого розподілу діапазону, який є розподілом для всіх парних порівнянь за припущенням незалежних вибірок. Він заснований на ймовірності багатоваріантного нормального розподілу, який можна обчислити за допомогою числової інтеграції, але зазвичай використовується з таблиць.

Я здогадуюсь, оскільки я не знаю теорії, полягає в тому, що розподілений діапазон студенти може бути застосований до випадків рангових тестів аналогічно, як у парних порівняннях Tukey HSD.

Таким чином, використання (2) нормального розподілу плюс багаторазове виправлення p-значення корекцій та використання (1) студизованих розподілів діапазону є двома різними способами отримання приблизного розподілу тестової статистики. Однак, якщо припущення щодо використання розподіленого діапазону студийованих виконані, то це повинно забезпечити кращу наближеність, оскільки воно розроблене для конкретної проблеми всіх парних порівнянь.


1

Наскільки я знаю, порівнюючи лише 2 алгоритми, Демшар припускає тест рангового підписання Вілкоксоном, а не Фрідман + постхок. Я, на жаль, так само розгублений, як і ви, коли йдеться про дешифрування того, що має означати поділ demšar на k-1.


1
Поділ на (k-1) - це при порівнянні декількох алгоритмів із методом управління. Але це кожен проти кожного, так що NxN. Роздільну частину я можу зрозуміти, але відношення до розподілу діапазону Studentized виходить за рамки мого розуміння.
Sentry

@Sentry: Тут потрібно помножити коефіцієнт коригування, не множуючи. Будь ласка, дивіться мою відповідь вище.
Кріс

0

Я також натрапив на запитання, чи слід обчислити р-значення з нормального або студизованого t-розподілу. На жаль, я досі не можу відповісти на це, оскільки різні статті повідомляють різні методи.

Тим не менш, для обчислення скоригованих p-значень, ви повинні помножити некорекційне p-значення з коригуючим коефіцієнтом, наприклад, p * (k-1) у разі порівняння з одним методом управління або p * ((k * (k-1) )) / 2) для nxn порівнянь.

Те, що вам слід розділити на коефіцієнт коригування, - це значення альфа, якщо порівнювати його з невідрегульованими значеннями p.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.