Тест Колмогорова – Смірнова: p-значення та ks-тест зменшуються зі збільшенням кількості вибірки


12

Чому р-значення та ks-тест-статистика зменшуються зі збільшенням розміру вибірки? Візьмемо цей приклад Python як приклад:

import numpy as np
from scipy.stats import norm, ks_2samp
np.random.seed(0)
for n in [10, 100, 1000, 10000, 100000, 1000000]:
  x = norm(0, 4).rvs(n)
  y = norm(0, 4.1).rvs(n)
  print ks_2samp(x, y)

Результати:

Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508)
Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247)
Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662)
Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896)
Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855)
Ks_2sampResult(statistic=0.0065240000000000853, pvalue=6.4573678008760032e-19)

Інтуїтивно розумію, що по мірі зростання n тест "впевненіший", що два розподіли відрізняються. Але якщо розмір вибірки дуже великий, в чому сенс тестів подібності, таких як цей, і скажімо тест Андерсона Дарлінга, або t-тест, оскільки в таких випадках, коли n дуже великий, розподіли завжди знайдуться "суттєво" різні! Тепер мені цікаво, що на землі має значення р-значень. Це настільки залежить від розміру вибірки ... якщо p> 0,05 і ви хочете, щоб він був нижчим, просто отримайте більше даних; і якщо p <0,05, і ви хочете, щоб він був вищим, просто видаліть деякі дані.

Крім того, якби два розподіли були однаковими, статистика ks-тесту була б 0, а р-значення 1. Але в моєму прикладі, оскільки n збільшує статистику ks-тесту, припускає, що розподіли стають все більш схожими з часом (зменшується) , але відповідно до р-значення вони з часом стають все більшими та різними (також зменшуються).


Див. Чи є тестування на нормальність "по суті марним"? . Зауважте, що сказане вами не зовсім вірно: якщо розподіли насправді ідентичні, розподіл p-значення залишається рівномірним навіть при збільшенні розміру вибірки.
Scortchi

2
У мене виникла проблема, яка може бути пов'язана з цією: stats.stackexchange.com/questions/301628/… Це зробило мене дуже скептично відносно цього тесту.
Олександр Йованович

Це правда, маючи достатньо даних, ви можете показати, що довільно малі, але не нульові розміри ефектів є статистично значущими. Ключовим тут є визнання різниці між статистичною та практичною значимістю. Для неправильного котирування Гомера Сімпсона, "ви можете використовувати p-значення, щоб довести все, що навіть віддалено відповідає дійсності".
Ядерна Ванга

Відповіді:


5

Статистика тесту зменшується, оскільки ваші розподіли дуже схожі, а більші зразки мають менше шуму. Якщо ви порівнювали два використані вами теоретичні розподіли, ви повинні отримати "справжню" статистику KS. Коли ви додаєте більше даних, ваша приблизна статистика KS повинна наближатися до цього справжнього значення. Однак, навіть якщо ваша статистика KS знижується, ваша впевненість зростає, що вони насправді є двома різними розподілами (тобто р-значення зменшується), оскільки ви більше впевнені у своїх оцінках окремих розподілів.


3

На практичній увазі: Отримати більше даних не так просто (мені б хотілося). Вилучення даних просто для отримання потрібної величини - це академічне шахрайство, і якщо ви потрапляєте, ви потрапляєте у біду.p

Тим не менш, ти маєш рацію, що значення -значення саме по собі має обмежене значення. У кращому випадку це лише початок вашого аналізу і, звичайно, не кінець. Детальніше див . Твердження ASA про -значення . pp


Дякую за довідку, але я все ще не впевнений, чому статистика ks-тесту зменшується на більшу n.
Олівер Анжеліль
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.