У мене дві популяції, одна з N = 38,704 (кількість спостережень) та інша з N = 1,313,662. Ці набори даних мають ~ 25 змінних, всі безперервні. Я взяв середнє значення кожного з кожного набору даних і обчислював тестову статистику за формулою
t = середня різниця / STD помилка
Проблема полягає в ступені свободи. За формулою df = N1 + N2-2 ми матимемо більше свободи, ніж може впорядкувати таблиця. Будь-які пропозиції щодо цього? Як перевірити t статистику тут. Я знаю, що t-тест використовується для обробки зразків, але що робити, якщо ми застосовуємо це на великих зразках.