Чому р-значення та ks-тест-статистика зменшуються зі збільшенням розміру вибірки? Візьмемо цей приклад Python як приклад:
import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
x = norm(0, 4).rvs(n)
y = norm(0, 4.1).rvs(n)
print ks_2samp(x, y)
Результати:
Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)
Інтуїтивно розумію, що по мірі зростання n тест "впевненіший", що два розподіли відрізняються. Але якщо розмір вибірки дуже великий, в чому сенс тестів подібності, таких як цей, і скажімо тест Андерсона Дарлінга, або t-тест, оскільки в таких випадках, коли n дуже великий, розподіли завжди знайдуться "суттєво" різні! Тепер мені цікаво, що на землі має значення р-значень. Це настільки залежить від розміру вибірки ... якщо p> 0,05 і ви хочете, щоб він був нижчим, просто отримайте більше даних; і якщо p <0,05, і ви хочете, щоб він був вищим, просто видаліть деякі дані.
Крім того, якби два розподіли були однаковими, статистика ks-тесту була б 0, а р-значення 1. Але в моєму прикладі, оскільки n збільшує статистику ks-тесту, припускає, що розподіли стають все більш схожими з часом (зменшується) , але відповідно до р-значення вони з часом стають все більшими та різними (також зменшуються).