Як інтерпретувати р-значення тесту Колмогорова-Смірнова (пітон)?


30

У мене є два зразки, які я хочу перевірити (використовуючи python), якщо вони отримані з одного розподілу. Для цього я використовую статистичну функцію ks_2samp від scipy.stats. Він повертає 2 значення, і я знаходжу труднощі, як їх інтерпретувати. Допоможіть, будь ласка!

Відповіді:


23

Як вказував Стійн, тест ks повертає D-статистику і p-значення, відповідні D статистиці. D статистика - це абсолютна максимальна відстань (супремум) між CDF двох зразків. Чим ближче це число до 0, тим більше шансів на те, що два зразки були взяті з одного розподілу. Перегляньте сторінку Wikipedia для ks тесту. Це дає гарне пояснення: https://en.m.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

Р-значення, повернене тестом ks, має таку ж інтерпретацію, як і інші p-значення. Ви відкидаєте нульову гіпотезу, що два зразки були взяті з одного і того ж розподілу, якщо значення p менше, ніж ваш рівень значущості. Ви можете знайти таблиці в Інтернеті для перетворення статистики D в p-значення, якщо вас цікавить процедура.


Спасибі за вашу відповідь. Насправді я знаю значення двох значень D і P-значення, але не можу бачити зв'язку між ними. Як я можу визначити рівень значущості? Чи можете ви надати мені посилання для перетворення статистики D у значення p?
meri

Звичайно, таблиця для перетворення D stat у p-значення: soest.hawaii.edu/wessel/courses/gg313/Critical_KS.pdf
CrossValidatedTrading

@CrossValidatedTrading: Ваше посилання на таблицю D-stat-to-p-значення тепер 404.
james.garriss

@CrossValidatedTrading Чи має бути залежність між р-значеннями та значеннями D у двосторонньому тесті KS? У деяких випадках я бачив пропорційну залежність, де D-статистика зростає зі значенням p. Схоже, було б навпаки, що дві криві з більшою різницею (більша D-статистика) були б значно суттєвішими (низьке значення p) ...
Томас Метью

якщо значення р> 0,05, то ваші два зразки повинні бути однаковими і врівноваженими.
користувач798719

5

Під час пошуку в Google для ks_2samp, першим зверненням є цей веб-сайт. На ньому ви можете побачити специфікацію функції:

This is a two-sided test for the null hypothesis that 2 independent samples are drawn from the same continuous distribution.

Parameters : 
  a, b : sequence of 1-D ndarrays
  two arrays of sample observations assumed to be drawn from a continuous distribution, sample sizes can be different

Returns :   
  D : float,  KS statistic
  p-value : float, two-tailed p-value

Параметри a і b - це моя послідовність даних або я повинен обчислити CDF, щоб використовувати ks_2samp?
meri

@meri: на сторінці, на яку я пов’язаний, є приклад.
Штійн
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.