Я порівнюю продуктивність декількох алгоритмів у кількох наборах даних. Оскільки ці показники ефективності не гарантуються нормально розподіленими, я обрав тест Фрідмана за допомогою спеціального тесту Nemenyi на основі Демшара (2006) .
Потім я знайшов ще один документ, який, окрім запропонованих інших методів, таких як тест Quade з подальшим пост-хоковим тестом Шаффера, вони застосовують тест Nemenyi по-різному.
Як правильно застосувати постмеханічний тест Nemenyi?
1. Використання статистики діапазону Studentized?
У статті Демшара говориться про відхилення нульової гіпотези (відсутність різниці в продуктивності двох алгоритмів), якщо середня різниця рангів більша за критичний відстань CD з
"де критичні значення qα базуються на статистиці діапазону Studentized, поділеній на "
Після деякого копання я виявив, що ви "критичні значення" можете шукати для певних альфа, наприклад у таблиці для , для нескінченних ступенів свободи (внизу кожної таблиці).
2. або використовуючи нормальний розподіл?
Тільки-но, коли я подумав, що знаю, що робити, знайшов ще один папір, який мене знову збентежив, бо вони використовували лише звичайний розподіл. На сторінці 12 Демшар розповідає подібну річ:
Тестова статистика для порівняння i-го та j-го класу за допомогою цих методів Значення z використовується для визначення відповідної ймовірності з таблиці нормального розподілу, яку потім порівнюють з відповідною . Тести відрізняються тим, як вони регулюють значення для компенсації декількох порівнянь.
У цьому пункті він говорив про порівняння всіх алгоритмів з алгоритмом управління, але зауваження "відрізняються тим, як вони коригуються ... для компенсації декількох порівнянь" припускає, що це також має бути справедливим для тесту Неменого.
Тож, що мені здається логічним, - це обчислити значення р- значення на основі тестової статистики , яка зазвичай розподіляється, і виправити цю, поділяючи на .
Однак це дає абсолютно різні різницькі відмінності, за яких можна відкинути нульову гіпотезу. І тепер я застряг і не знаю, який метод застосувати. Я сильно схиляюся до того, хто використовує звичайний розподіл , тому що він простіший і логічніший для мене. Мені також не потрібно шукати значення в таблицях, і я не пов'язаний з певними значеннями значущості.
Знову ж таки, я ніколи не працював зі статистикою студійного діапазону, і не розумію цього.