Чи можна довіряти вагомому результату t-тесту, якщо розмір вибірки невеликий?


17

Якщо результат мого одностороннього t-тесту є значним, але розмір вибірки невеликий (наприклад, нижче 20 або більше), чи можу я все-таки довіряти цьому результату? Якщо ні, то як мені поводитися та / або тлумачити цей результат?



8
Просто коментар, я не хочу додавати до чудових коментарів нижче; ви не довіряєте результату t-тесту, ви довіряєте самій процедурі. Окремий результат є правильним чи неправильним, але без подальшого дослідження ви ніколи не дізнаєтеся, який. Т-тест або методології Фішера, або методом Пірсона та Неймана є довірливим, якщо допущення будуть виконані. Якщо ви встановите то він буде обманювати вас, при нескінченному повторенні, не більше 5% часу, можливо, зовсім трохи менше. Питання, яке ви повинні задати: "Чи допущені припущення?" α<.05
Дейв Харріс

Відповіді:


15

Теоретично, якщо всі припущення t-тесту вірні, то з невеликим розміром вибірки немає проблем.

На практиці є кілька не зовсім правдивих припущень, до яких ми можемо позбутися для великих розмірів вибірки, але вони можуть спричинити проблеми для невеликих розмірів вибірки. Чи знаєте ви, чи нормально розподілений базовий розподіл? Чи всі зразки незалежні і однаково розподілені?

Якщо ви сумніваєтесь у достовірності тесту, тоді ви можете скористатися альтернативою завантаження. Запуск завантаження включає переустановку з вашого зразка, щоб побачити, наскільки часто нульова гіпотеза є істинною або хибною. Можливо, ваша нульова гіпотеза становить а ваше р-значення 0,05, але завантаження показує, що середнє значення вибірки становить менше нуля 10% часу. Це вказувало б на те, що саме флюс викликав значення р 0,05, і ви повинні бути менш впевнені, що нульова гіпотеза помилкова.μ<0


1
Наприклад, якщо ви знаєте, що базовий розподіл є приблизно нормальним розподілом, і всі 10 ваших вибірок менші за певне значення, то, очевидно, шанси сукупності означають, що це більше, ніж це значення, щонайбільше один на 2 ^ 10, або одна на тисячу. Очевидно, що шанс 1 на 2 ^ 10, що всі десять зразків із нормально розподіленої сукупності опиняться на одній стороні середнього рівня. Проблема полягає в тому, що ви отримаєте достовірні результати, але вони будуть дуже слабкими - на кшталт "середній зріст дорослого чоловіка майже напевно становить від 5 до 7 футів".
Девід Шварц

Велике спасибі за пояснення та альтернативний підхід. Я дуже їх ціную! Велике дякую!
Ерік

Я не отримую вашої пропозиції щодо завантаження. Якщо ви повторно пробите вибірку (що має р <0,05), тоді ви очікуєте, що більшість повторних копій завантажувальних програм матимуть вагомий результат, можливо, близько 95%, а не 5 або 10%. Чи можете ви, будь ласка, докладно? Cc до @Eric.
амеба каже, що поверніть Моніку

3
Як загальне зауваження, завантажувальний пристрій добре працює у великих зразках, але при малих зразках покриття може дещо відрізнятися від номінального. Крім того, при дуже низькому розмірі зразка потужність низька. Тож не обов'язково вірно, що "тест завантаження" завжди перевершує t-тест.
Амеба каже, що поверніть Моніку

3
@amoeba Мені дуже подобається ваш стиль корекції. Ви не просто сказали мені, що правильно / неправильно, ви вказали на дивні наслідки моїх ідей і змусили мене переосмислити свою відповідь і зрозуміти джерело моєї помилки. Тож дякую за це! Раніше Вюбер робив це і для мене
Х'ю

21

Вам рідко слід довіряти якомусь одному значному результату. Ви не сказали, чому ви використовували однохвостий замість тесту з двома хвостами, тому, сподіваємось, у вас є вагомі причини для цього, крім того, щоб боротися, щоб мати можливість вимагати статистично значущого результату!

Відклавши це, розглянемо наступне з с. 261 з Sauro, J., & Lewis, JR (2016). Кількісне визначення досвіду користувачів: практична статистика досліджень користувачів, 2-е видання. Кембридж, МА: Морган-Кауфман.


Як Рональд Фішер рекомендував використовувати p-значення

Коли Карл Пірсон був великим старим людиною статистики, а Рональд Фішер був відносним новачком, Пірсон, мабуть, загрожував ідеям і математичним можливостям Фішера, використовував свій вплив, щоб не допустити публікації Фішера у великих статистичних журналах того часу, Biometrika та Journal Королівського статистичного товариства. Отже, Фішер опублікував свої ідеї в багатьох інших місцях, таких як сільськогосподарські та метеорологічні журнали, включаючи декілька праць «Праць Товариства психічних досліджень». Саме в одному з робіт для цього останнього журналу він згадував конвенцію про встановлення того, що ми називаємо прийнятною помилкою типу I (альфа) 0,05, а також критично згадував важливість відтворюваності під час зустрічі з несподіваним значущим результатом:

Спостереження вважається вагомим, якби воно рідко проводилося, за відсутності реальної причини такого роду, якого ми шукаємо. Звичайною є практика судити про результат, якщо він настільки масштабний, що він був би отриманий випадково не частіше одного разу в двадцять випробувань. Це довільний, але зручний рівень значущості для практичного слідчого, але це не означає, що він дозволяє себе обманювати раз на двадцять експериментів. Тест на значимість лише підказує йому, що слід ігнорувати, а саме всі експерименти, в яких значних результатів не отримано. Він повинен лише стверджувати, що явище експериментально демонструється, коли він знає, як спроектувати експеримент, щоб він рідко не зміг дати значного результату. Отже, Окремі значні результати, які він не знає, як відтворити, залишаються в напрузі до наступного розслідування. (Фішер, 1929, стор. 191)

Довідково

Фішер, Р.А. (1929). Статистичний метод у психічних дослідженнях. Праці Товариства психічних досліджень, 39, 189-192.


2
Фішер також опублікував декілька важливих робіт, що переоцінюють максимальну оцінку ймовірності в "Аналах Євгеніки". Його метод часто був кращим, ніж метод моментів, який використовував Карл Пірсон. Фішер назвав свій метод фідуціальним висновком. Пізніше це було оформлено Єжи Нейманом та Егоном Пірсоном (син Карла Пірсона).
Майкл Р. Черник

3
Нейман і Пірсон не формалізували фідуціальні умовиводи Фішера. Вони розробили альтернативний метод.
Майкл Лев - відновлення Моніки

5
У день Фішера "значуще" означало, що воно щось означає, а не те, що це важливо.
Девід Лейн

1
Дякую вам дуже за детальну інформацію! Мені це справді дуже допомагає!
Ерік

16

Уявіть себе, що опинитесь у ситуації, коли ви робите багато подібних тестів, у наборі обставин, коли деяка частка нулів відповідає дійсності.

Дійсно, давайте моделюємо його за допомогою надпростої моделі урн; в урні є пронумеровані кулі, кожна з яких відповідає експерименту, який ви можете зробити, деякі з яких мають значення "null true", а деякі "false" ("" "). Назвіть частку справжніх нулів в урні .t

Для подальшого спрощення ідеї припустимо, що потужність для цих помилкових нулів є постійною (при , оскільки β - звичайний символ для коефіцієнта помилок типу II).(1β)β

nMnM

Яка частка ваших відхилень буде "правильною"?

ntα+n(1t)(1β)
n(1t)(1β)

(1t)(1β)tα+(1t)(1β)

tαtα+(1t)(1β)

(1t)(1β)tα

1βα (тобто якщо у вас недостатньо висока потужність), багато наших відхилень - це помилки!

Тож, коли розмір вибірки невеликий (а значить, і потужність низька), якщо розумна частка наших нулів була правдою, ми часто робимо помилку при відхиленні.

Ситуація не набагато краща, якщо майже всі наші нулі суворо помилкові - хоча більшість наших відхилень буде правильним (тривіально, оскільки крихітні ефекти все ще строго хибні), якщо потужність не велика, значна частина цих відхилення будуть "в неправильному напрямку" - ми зробимо висновок, що нуль є помилковим часто, тому що випадково вибірка виявилася на неправильній стороні (це може бути один аргумент для використання односторонніх тестів - коли однобічні тести роблять сенс - принаймні уникати відхилень, які не мають сенсу, якщо великі розміри вибірки важко отримати).

Ми можемо побачити, що невеликі розміри вибірки, безумовно, можуть бути проблемою.

[Ця частка неправильних відхилень називається помилковим виявленням ]


Якщо ви маєте уявлення про ймовірний розмір ефекту, ви в кращому становищі, щоб оцінити, який може бути адекватний розмір вибірки. З великими очікуваними ефектами відмова з невеликим розміром вибірки не обов'язково повинна викликати серйозне занепокоєння.


Дуже дякую! Це момент, який я можу пропустити дуже легко. Велике спасибі за контактний вказівник на це!
Ерік

1
Чудова робота. Це може бути прийнятою відповіддю.
Річард Харді

@Eric оригінальна відповідь трохи заплуталася в середині; Я це виправив.
Glen_b -Встановіть Моніку

9

Деякі з оригінальних робіт Госсета (він же Студент), для яких він розробив тест t, включали зразки дріжджів n = 4 і 5. Тест був розроблений спеціально для дуже малих зразків. Інакше нормальне наближення було б добре. Однак Госсет робив дуже обережні, контрольовані експерименти над даними, які він дуже добре розумів. Існує обмеження кількості речей, які пивоварня повинна перевірити, і Госсет провів своє робоче життя в Гіннесі. Він знав його дані.

Я трохи підозрюю ваш акцент на однобічному тестуванні. Логіка тестування однакова, як і гіпотеза, але я бачив, як люди проходять значну однобічну перевірку, коли двостороння була незначною.

Ось що передбачає (верхній) односторонній тест. Ви перевіряєте, що середнє значення дорівнює 0. Ви займаєтесь математикою і готові відмовитися, коли T> 2.5. Ви запускаєте експеримент і спостерігаєте, що T = -50 000. Ви кажете: "phhhhht", і життя продовжується. Якщо фізично неможливо статистика тесту опуститися нижче гіпотезованого значення параметра, і якщо ви ніколи не приймете жодного рішення, якщо статистика тестування буде йти у зворотному напрямку, ніж ви очікували, вам слід скористатися двостороннім тестом.


6

Головне, про що потрібно хвилюватися - це сила вашого тесту. Зокрема, можливо, вам потрібно зробити аналіз потужності після встановлення потужності, щоб визначити, з якою ймовірністю ви, враховуючи розмір вибірки, визначити справжній суттєвий ефект розумного розміру. Якщо типовий ефект дуже великий, n з 8 може бути цілком адекватним (як у багатьох експериментах з молекулярної біології). Якщо ефекти ви зацікавлені в , як правило , тонкі, проте (як і в багатьох експериментах соціальної психології), п тисяч по- , як і раніше може бути слабенький.

Це важливо, оскільки недостатньо перевірені тести можуть дати дуже оманливі результати. Наприклад, якщо ваш тест недостатній, навіть якщо ви виявите значний результат, ви маєте відносно високу ймовірність зробити те, що Ендрю Гельман називає помилкою "типу S", тобто є реальний ефект, але в зворотному напрямку, або помилка "типу M", тобто є реальний ефект, але справжня величина набагато слабша, ніж оцінено за даними.

Гельман та Карлін написали корисну доповідь про те, як робити аналіз потужності після спеціальних дій, які, на мою думку, застосовуються у вашому випадку. Важливо, що вони рекомендують використовувати незалежні дані (тобто, не тестовані вами дані, а огляди, моделювання, результати подібних експериментів тощо) для оцінки правдоподібного істинного розміру ефекту. Виконуючи аналіз потужності, використовуючи той правдоподібний оціночний розмір справжнього ефекту та порівнюючи з вашими результатами, ви можете визначити ймовірність помилки типу S та типового "коефіцієнта перебільшення" і, таким чином, отримати краще розуміння того, наскільки ваші фактичні фактичні дані.


4

Можна сказати, що вся суть статистичної значущості полягає у відповіді на питання "чи можна довіряти цьому результату, враховуючи розмір вибірки?". Іншими словами, вся справа в тому, щоб контролювати той факт, що при малих розмірах зразків ви можете отримати гриль, коли реального ефекту не існує. Статистичне значення, тобто p-значення, - це саме відповідь на питання, "якби не існувало реального ефекту, наскільки ймовірним було б я отримати такий великий мозок?". Якщо це дуже малоймовірно, це вказує на те, що це не фальш.

Отже, відповідь "так", якщо значення р низьке, і якщо ви дотримувались правильних статистичних процедур і виконуєте відповідні припущення, то так, це хороші докази і має таку ж вагу, як якщо б ви отримали однакове p-значення з дуже великим розміром вибірки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.