Я збираю дуже великі вибірки (> 1 000 000) категоричних даних щодня і хочу, щоб дані виглядали "суттєво" різними між днями, щоб виявити помилки в зборі даних.
Я думав, що використання тесту на придатність (зокрема, G-тест) було б для цього добре (каламбур) призначений для цього. Очікуваний розподіл задається розподілом попереднього дня.
Але, оскільки розміри моїх зразків такі великі, тест має дуже високу потужність і дає багато помилкових позитивних результатів. Тобто, навіть дуже незначні денні коливання дадуть майже нульове p-значення.
Я в кінцевому підсумку помножив свою тестову статистику на деяку константу (0,001), що має чудову інтерпретацію вибірки даних із такою швидкістю. Ця стаття, здається, узгоджується з таким підходом. Кажуть, що:
Квадрат Chi най надійніший із зразками приблизно від 100 до 2500 людей
Я шукаю ще авторитетні коментарі з цього приводу. Або, можливо, деякі альтернативні варіанти помилкових позитивних результатів при проведенні статистичних тестів на великих наборах даних.