Як t-тест може бути статистично значущим, якщо середня різниця майже дорівнює 0?


10

Я намагаюся порівняти дані двох груп населення, щоб визначити, чи різниця між методами лікування є статистично значущою. Здається, набори даних зазвичай розподіляються з дуже невеликою різницею між двома наборами. Середня різниця - 0,00017. Я провів парний t-тест, очікуючи, що я не зможу відкинути нульову гіпотезу про різницю між засобами, однак, моє обчислене t-значення набагато вище, ніж моє критичне t-значення.


Про що ви хочете отримати пропозиції? Які ваші N?
gung - Відновіть Моніку

привіт, я просто не дуже впевнений, як діяти, якщо я зробив щось не так для початку, бачачи, як дані взагалі не відрізняються. Обидві групи мають 335 спостережень
Kscicc26,

5
Стандартна похибка різниці в засобах є також функцією від стандартних відхилень та розмірів вибірки. Усі ці фрагменти повинні бути у вашому питанні, перш ніж будь-який сюрприз зможе бути зареєстрований.
Glen_b -Встановити Моніку

7
Кожна різниця - «майже 0»! Якщо змінна результату - це вага, набрана людьми, і вона вимірюється в фунтах, то 0,00017 дійсно невелика, але якщо вона вимірюється мільйонами фунтів, то 0,00017 є величезною. Отже, це питання не має сенсу, поки не буде надано контекст - те, що вимірюється у відповіді - та одиницю вимірювання.
whuber

1
Статистичне значення не означає "значущість" в ширшому англійському сенсі значущості.
david25272

Відповіді:


9

Я не бачу причин вважати, що ви зробили щось не так лише тому, що тест був значним, навіть якщо середня різниця дуже мала. У парному t-тесті значущість визначатиметься трьома речами:

  1. величина середньої різниці
  2. кількість ваших даних
  3. стандартне відхилення відмінностей

Справді, ваша середня різниця дуже-дуже мала. З іншого боку, у вас є достатня кількість даних (N = 335). Останній фактор - це стандартне відхилення відмінностей. Я не знаю, що це, але, оскільки ви отримали вагомий результат, можна з упевненістю припустити, що він досить малий, щоб подолати невелику середню різницю за кількістю наявних даних. Задля побудови інтуїції уявіть, що парна різниця для кожного спостереження у вашому дослідженні становила 0,00017, то стандартне відхилення різниць було б 0. Безумовно, було б розумно зробити висновок, що лікування призвело до зменшення (хоча крихітний).

Як зазначає @whuber у коментарях нижче, варто зазначити, що хоча 0,00017 здається дуже маленьким числом qua, воно не обов'язково є малим у змістовному виразі. Щоб це знати, нам потрібно було б знати кілька речей, по-перше, що таке одиниці. Якщо одиниці дуже великі (наприклад, роки, кілометри тощо), те, що здається малим, може бути значущо великим, тоді як якщо одиниці невеликі (наприклад, секунди, сантиметри тощо), ця різниця здається ще меншою. По-друге, навіть невелика зміна може бути важливою: уявіть собі якесь лікування (наприклад, вакцина), яке було дуже дешевим, простим у застосуванні для всього населення та не мало побічних ефектів. Це, можливо, варто зробити навіть, якщо це врятувало лише дуже мало життів.


дякую за відповідь! Я не надто розбираюся в статистиці, тому мене просто здивувало, коли я не отримав відповіді, яку очікував отримати. стандартна похибка різниці між засобами: 7.36764E-05. Я не впевнений, у чому це актуальність, але я впевнений, що ти так. ще раз дякую за вашу допомогу
Kscicc26

Безкоштовно, @ Kscicc26. Стандартна помилка різниць та стандартне відхилення різниць - це не одне і те ж. (Трагічно, що вони звучать так, як і повинні бути.) SD каже вам, наскільки ваші відмінності різняться, тоді як SE каже вам, скільки оцінок середньої різниці буде змінюватися, якщо ви знову і знову переходите на дослідження. Можливо, вам допоможе прочитати мій опис ПТ тут .
gung - Відновіть Моніку

я перевірю це і повернусь до цієї теми вранці!
Kscicc26

2
Ця середня різниця не є ні малою, ні великою: у вас просто немає підстав для оцінки її розміру.
whuber

@whuber, це хороший момент - я не знаю, на що посилаються ці цифри. Але ОП, мабуть, і думає, що це дуже мало. Я йду з цією інформацією.
gung - Відновіть Моніку

9

Щоб знати, чи різниця дійсно велика чи мала, потрібна певна міра масштабу, стандартне відхилення - це одна міра масштабу і є частиною формули t-тесту, яка частково враховує цю шкалу.

Поміркуйте, чи порівнюєте ви висоту 5-річного віку з висотами 20-річних (люди, однакова географічна область тощо). Інтуїція говорить про те, що тут є практична різниця, і якщо висоти вимірюються в дюймах або сантиметрах, то різниця буде виглядати змістовно. Але що робити, якщо перевести висоту в кілометри? чи світлових років? тоді різниця буде дуже невеликою кількістю (але все-таки різною), але (забороняючи помилку округлення) t-тест дасть ті самі результати, чи вимірюється висота в дюймах, сантиметрах або кілометрах.

Отже різниця в 0,00017 може бути величезною залежно від масштабу вимірювань.


4

тunlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populationsт17100,000

pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T)                #Paired t-test with the following output...

т(335)=187.55,p<2.2×10-16

.00001т

Можливо, вас більше зацікавить практична значущість, ніж цей дослівний сенс перевірки значущості гіпотези. Практична значущість значно більше залежатиме від значення ваших даних у контексті, ніж від статистичної значущості; це не суто статистична справа. Я наводив корисний приклад цього принципу у відповіді на популярне тут питання, що містить закріплені погляди p-значень :

r=.03

Цей "питання життя і смерті" був розміром впливу аспірину на інфаркти, в основному - потужний приклад чисельно малих, набагато менш послідовних відмінностей з практично важливим значенням. Багато інших питань з ґрунтовними відповідями, з яких ви могли б отримати корисні посилання, тут:

Довідково

Розенталь, Р., Роснов, Р.Л., Рубін, DB (2000). Контрасти та розміри ефектів у поведінковому дослідженні: кореляційний підхід . Cambridge University Press.


0

Ось приклад в R, який показує теоретичні поняття в дії. 10 000 випробувань гортання монети в 10 000 разів, що має ймовірність голів .0001 порівняно з 10 000 випробувань перевернути монету в 10000 разів, що має ймовірність голов .00011

t.test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))

t = -8.0299, df = 19886.35, p-значення = 1,03е-15 альтернативної гіпотези: істинна різниця в засобах не дорівнює 0 95-відсоткового довірчого інтервалу: -0.14493747 -0.08806253 Оцінка вибірки: середнє значення x середнє y 0,9898 1,1063

Різниця в середньому відносно закрита до 0 з точки зору сприйняття людиною, однак дуже статистично відрізняється від 0.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.