Чому працює тест Колмогорова-Смірнова?


25

Читаючи про 2-зразковий тест KS, я розумію, що саме він робить, але не розумію, чому він працює .

Іншими словами, я можу виконати всі кроки для обчислення емпіричних функцій розподілу, знайти максимальну різницю між двома, щоб знайти D-статистику, обчислити критичні значення, перетворити D-статистику в p-значення тощо.

Але я поняття не маю, чому щось із цього насправді щось говорить мені про два розподіли.

Хтось міг би так само легко сказати мені, що мені потрібно перестрибнути через осла і порахувати, як швидко він тікає, і якщо швидкість менше 2 км / год, то я відкидаю нульову гіпотезу. Впевнений, що я можу зробити те, що ви мені сказали, але що стосується будь-якої з цієї нульової гіпотези?

Чому працює 2-зразковий тест KS? Що стосується обчислення максимальної різниці між ECDF, наскільки вони відрізняються між двома розподілами?

Будь-яка допомога вдячна. Я не статистик, тому припускайте, що я ідіот, якщо це можливо.


4
Ласкаво просимо в CV, Дарсі! Чудове запитання!
Олексій

1
Перестрибніть через осла ... :)
Річард Харді

Відповіді:


9

В основному тест є послідовним як прямий результат теореми Глівенко Кантеллі, одного з найважливіших результатів емпіричних процесів і, можливо, статистики.

GC каже нам, що статистика тесту Колмогорова Смірнова переходить до 0 як під нульовою гіпотезою. Це може здатися інтуїтивно зрозумілим, поки ви не зчепитесь із реальним аналізом та граничними теоремами. Це одкровення, оскільки цей процес можна розглядати як незліченну кількість нескінченних випадкових процесів, тому закони чи ймовірність призведе до того, що можна вірити, що завжди є одна точка, яка могла б перевищити будь-яку межу епсилона, але ні, супремум сходиться в довгостроковий.n

Як довго? Mmyyeeaa, я не знаю. Сила випробувань начебто сумнівна. Я б ніколи не використовував це в реальності.

http://www.math.utah.edu/~davar/ps-pdf-files/Kolmogorov-Smirnov.pdf


2
+1 Привіт, АдамО! Зробив одне-два речення, щоб влада була "якось сумнівною?" Мені подобається ця перспектива (я зібрав, що тест вважається легко "переможеним").
Олексій

1
@Alexis Тест не є надмірним, IRL ми майже ніколи не очікуємо, що нуль буде правдивим, а нам просто все одно, чи відрізняється 99,999-й відсоток на 0,1 між і . Тож коли я бачу від рівня Тест на KS, все, на що я думаю, є "це хибний негатив", і коли я бачу я думаю, "whoop-dee-do так, що ви можете про це сказати ?". Тести сильної нульової гіпотези не є переконливим способом подання наукових доказів. F 2 p > 0,05F1F2p>0.05F 1 = F 2p<0.05F1=F2
AdamO

1
Добре. Мене викликає стурбованість тестами гіпотез на різницю. Але чи викликає ваше занепокоєння влада просте онтологічне переконання, що майже точно ? чи є щось більш матеріальне щодо асимптотики чи щось інше там? F 2F1F2
Олексій

2
@ Алеліс ні, я не маю жодних проблем з математикою тесту. Насправді я думаю, що це досить елегантно, і результат граничної теореми є дуже вражаючим.
AdamO

2
@Alexis скажу, в тих місцях , де це є можливим бути в точності дорівнює , тест може бути дуже зручно. Я погоджуюся з тим, що не багато змістовних наукових застосувань підходить до цього законопроекту, але в контексті статистичних обчислень, де ви хочете перевірити, що якесь написане вами програмне забезпечення генерує псевдо випадкові числа з якогось відомого розподілу, це цілком корисно. Це ефективно кодифікує інтуїцію, яку ви отримаєте, переглядаючи графіки ймовірності. F 2F1F2
jcz

9

У нас є два незалежні, універсальні зразки:

X1,X2,...,XNiidFY1,Y2,...,YMiidG,
де і - функції безперервного кумулятивного розподілу. Тест Колмогорова-Смирнова тестує Якщо нульова гіпотеза вірна, то і - вибірки з одного розподілу. Все, що потрібно для того, щоб і було з різних розподілів, є для іGF
H0:F(x)=G(x)for all xRH1:F(x)G(x)for some xR.
{Xi}i=1N{Yj}j=1MXiYjFGвідрізнятися будь-якою сумою принаймні на одне значення . Таким чином, тест KS оцінює і за допомогою емпіричних CDF кожного зразка, підкреслюючи найбільшу точкову різницю між двома, і запитує, чи ця різниця "достатньо велика", щоб зробити висновок, що у деяких .xFGF(x)G(x)xR


8

Інтуїтивно зрозумілий:

Тест Колмогорова-Смірнова досить принципово спирається на впорядкованість спостережень за розподілом. Логіка полягає в тому, що якщо два основні розподіли однакові, то, залежно від розмірів вибірки, впорядкування має бути досить добре переміщеним між ними.

Якщо впорядкування зразків "не змішане" досить екстремально (наприклад, всі або більшість спостережень при розподілі надходять до спостережень у розподілі , що зробить статистику значно більшою), це сприймається як доказ того, що нуль гіпотеза, що основні розподіли не тотожні.YX DXD

Якщо два зразки розподілу добре перетасовані, то не матиме можливості отримати дуже великі, оскільки впорядковані значення і будуть простежувати один з одним, і у вас не буде достатньо доказів для відхилення нуля .DXY

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.