Чому зв’язки настільки складні в непараметричній статистиці?


14

Мій непараметричний текст, Практична непараметрична статистика , часто дає чіткі формули для очікувань, дисперсій, тестових статистичних даних тощо, але включає застереження, що це працює лише в тому випадку, якщо ми ігноруємо зв'язки. Розраховуючи статистику Манна-Вітні U, рекомендується викинути зв'язані пари при порівнянні, яка більша.

Я розумію, що зв’язки насправді не говорять нам про те, яка чисельність населення більша (якщо це те, що нас цікавить), оскільки жодна група не є більшою за іншу, але, здається, це не мало б значення при розробці асимптотичних розподілів.

Чому тоді в таких непараметричних процедурах виникають такі труднощі, що стосуються зв’язків? Чи існує спосіб отримання будь-якої корисної інформації з зв’язків, а не просто їх викидання?

EDIT: Що стосується коментаря @ whuber, я знову перевірив свої джерела, і в деяких процедурах використовується середнє значення рангів замість того, щоб повністю скинути прив'язані значення. Хоча це видається більш розумним у відношенні збереження інформації, мені також здається, що їй не вистачає суворості. Дух питання все ще стоїть.


Ви хочете сказати, що Практична непараметрична статистика пропонує вам " викидати " дані, коли вони пов'язані? Чи можете ви неправильно трактувати його поради? Чи можете ви цитувати це саме?
whuber

Так, можливо, я неправильно трактую поради. Від того ж автора: jstor.org/stable/2284536 " Wilcoxon запропонував викинути нулі з даних спочатку і виконати тест на зменшеному наборі даних. Якщо немає ненульових зв'язків, ця процедура призводить до умовного (з урахуванням кількості тестування без нульового розповсюдження та дозволяє використовувати існуючі точні таблиці критичних значень. З цієї причини більшість книг непараметричної статистики включає метод Вілкоксона в їх опис тесту "
Крістофер Аден

Зрозуміло, це посилається на тест Wilcoxon Signed Rank, але я чув подібні поради, що застосовуються в інших процедурах NP. Що стосується прикладу Манна-Вітні, я повернувся назад і перевірив книгу, і ви вірні, що я помиляюся. Що стосується Манна-Вітні, книга рекомендує усереднювати ранги зв'язаних значень, тобто: якщо 6 та 7 рядів прив'язані, даючи кожному значення 6,5.
Крістофер Аден

2
Дякую. Існують суворі способи обліку зв’язаних груп. Вони важливі при роботі з цензурованими (але безперервними) даними, оскільки часто цензуровані значення складають велику зв'язану групу. Про тести Крускал-Уолліса та Вілкоксона про рангову суму див. У главі 18 Р. І. Гілберта, * Статистичні методи моніторингу забруднення навколишнього середовища. "Формули, пов’язані із зав'язаними даними, можуть ускладнитися, але в деяких випадках (як тест КВ) все, що вам потрібно зробити обчислює таблицю ANOVA для рангів.
whuber

Відповіді:


14

Більшість робіт над непараметричними функціями спочатку було виконано, припускаючи, що існує основний безперервний розподіл, в якому зв'язки будуть неможливі (якщо їх виміряти досить точно). Тоді теорія може ґрунтуватися на розподілі статистики замовлень (які набагато простіші без зв’язків) або інших формулах. У деяких випадках статистика виявляється приблизно нормальною, що робить речі дійсно простими. Коли зв'язки вводяться або тому, що дані були округлими або природним чином дискретні, стандартні припущення не виконуються. Наближення може все-таки бути досить хорошим в деяких випадках, але не в інших, тому найчастіше найпростіше зробити це просто попередити, що ці формули не працюють із зв’язками.

Існують інструменти для деяких стандартних непараметричних тестів, які розробили точний розподіл за наявності зв'язків. Пакет AccuRankTests для R - один із прикладів.

Один з простих способів розв'язати зв'язки - це використання тестів рандомізації, таких як тести перестановки або завантаження. Вони не турбуються про асимптотичні розподіли, але використовують дані такі, які вони є, зв’язки та все (зауважте, що при великій кількості зв'язків навіть ці методи можуть мати низьку потужність).

Кілька років тому була стаття (я думав, що це американський статистик, але я не знаходжу її), в якій обговорювались ідеї зв'язків та деякі речі, які ви можете зробити з ними. Один момент полягає в тому, що це залежить від того, яке запитання ви задаєте, що робити із зв'язками, може бути дуже різним у тесті на перевагу порівняно з тестом на непідкупність.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.