Чому не можна узагальнити тест Колмогорова-Смірнова на 2 або більше виміри?


10

Питання каже все це. Я читав і те, і інше не може узагальнити KS до розміру, рівного або більшого, ніж два , і що відомі такі реалізації, як у цифрових рецептах , просто неправильні. Чи можете ви поясніть, чому так?


На основі цитованого (у моїй відповіді) розділу статті я додав деякі теги (двозначні, емпіричні та PDF).
Glen_b -Встановіть Моніку

pedrofigueira - я внесла суттєві зміни у свою відповідь (мій оригінал був невірним; вибачте про це). Я, швидше за все, внесу більше змін, оскільки маю намір повернутися із посиланнями на кілька багатоваріантних тестів на KS.
Glen_b -Встановіть Моніку

@Glen_b дякую вам за весь ваш час та зусилля!
pedrofigueira

Відповіді:


13

Я вважаю, що правомірним є цитування відповідної частини відповідного абзацу:

3. Тест на KS не можна застосовувати у двох чи більше вимірах. Астрономи часто мають набори даних із точками, розподіленими в площині чи більшими розмірами, а не по лінії. Кілька робіт у астрономічній літературі пропонують представити двовимірний тест KS, а один відтворений у відомому томі «Числові рецепти». Однак жодне випробування на основі EDF (це включає KS, AD та пов'язані з ним випробування) не можна застосовувати у двох чи більших розмірах, оскільки немає єдиного способу впорядкувати точки, щоб можна було обчислити відстані між чітко визначеними EDF. Можна побудувати статистику на основі якоїсь процедури впорядкування, а потім обчислити величини відстані між двома наборами даних (або одним набором даних та кривою). Але критичні значення отриманої статистики не є розподілом.

Як зазначалося, це здається занадто сильним.

1) Функція розподілу біваріантів, яка - це карта від до . Тобто, функція приймає уніваріантні реальні значення між 0 і 1. Ці значення - ймовірності - безумовно, вже «впорядковані» - і це (значення функції) - це те, що нам потрібно для порівняння для тестів на основі ECDF. . Аналогічно ecdf,F(x1,x2)=P(X1x1,X2x2)R2[0,1]F^ ідеально чітко визначений у біваріантному випадку.

Я не думаю, що обов'язково потрібно намагатися перетворити його на якусь функцію універсальної комбінованої змінної, як підказує текст. Ви просто обчислитеF і F^ при кожній необхідній комбінації та обчисліть різницю.

2) Однак у питанні, чи не розповсюджується це, у них є пункт:

а) очевидно, що така тестова статистика не буде змінена змінами трансформацій поля, тобто, якщо вона побудована як тест на біваріантні незалежні форми, U=(U1,U2), то це працює однаково добре, як тест на незалежність (X1,X2) де Ui=Fi(Xi). У цьому сенсі воно не має розподілу (можна сказати, "маржинальний").

b) однак, існує більш глибокий пункт, що в більш широкому розумінні є тим, що наївна версія статистики КС (така, яку я щойно описав) не є більш загальною для вільного поширення; ми не можемо просто перетворитиU довільно X=g(U).

У попередній версії своєї відповіді я сказав:

Ніяких труднощів, жодних проблем

Це неправильно. Дійсно, існують проблеми, якщо зміниться не тільки межа від неоднорідної незалежної форми, як тільки було сказано. Однак ці труднощі були розглянуті декількома способами в ряді робіт, які дають двовимірні / багатоваріантні версії статистики Колмогорова-Смірнова, які не страждають від цієї проблеми.

Я можу повернутися і додати деякі з цих посилань та деякі дискусії про те, як вони працюють, як тільки дозволяє час.


Ця відповідь однозначно правильна, але будьте уважні: тест KS може бути використаний, не означає, що його слід використовувати. Зазвичай є набагато кращі тести (більш потужні).
kjetil b halvorsen

Звичайно - хоча це залежить від того, які альтернативи представляють інтерес.
Glen_b -Встановіть Моніку

1
Я не повністю розумію цю відповідь. Я думаю, що багато астрономічних наборів даних (як і багато інших невеликих наборів даних) не мають сутнісно значущих систем координат. Таким чином, ваше твердження, що бали "замовлені вже", було б недійсним за таких обставин. Його можна було б врятувати, якби ви змогли показати, що статистика KS не залежить від координат, які використовуються для ідентифікації локацій . Я не думаю, що це правда в двох і більше вимірах, але я можу помилитися.
whuber

1
@whuber Я вніс суттєві зміни у світлі вашої дуже доброї відповіді на мою помилку. Я, швидше за все, внесу подальші зміни, оскільки додаю посилання та більше деталей, сподіваючись зробити відповідь, яка буде кориснішою у довгостроковій перспективі.
Glen_b -Встановіть Моніку

(+1) Дякую вам, Глен, що розширили цю відповідь та зробили її більш нюансованою. Хоча я вважаю, що посилання ОП сумнівної якості (спочатку воно неправильно тлумачить, що означають тести гіпотези), остаточно визнає, що "завантажувальний інструмент може прийти на допомогу, і рівень значущості для конкретної багатовимірної статистики та конкретного набору даних, що вивчається, може бути чисельно обчислюється. " Це, здається, вирівняно, принаймні по духу, з тим, як формується ваша відповідь.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.