Якщо результат мого одностороннього t-тесту є значним, але розмір вибірки невеликий (наприклад, нижче 20 або більше), чи можу я все-таки довіряти цьому результату? Якщо ні, то як мені поводитися та / або тлумачити цей результат?
Якщо результат мого одностороннього t-тесту є значним, але розмір вибірки невеликий (наприклад, нижче 20 або більше), чи можу я все-таки довіряти цьому результату? Якщо ні, то як мені поводитися та / або тлумачити цей результат?
Відповіді:
Теоретично, якщо всі припущення t-тесту вірні, то з невеликим розміром вибірки немає проблем.
На практиці є кілька не зовсім правдивих припущень, до яких ми можемо позбутися для великих розмірів вибірки, але вони можуть спричинити проблеми для невеликих розмірів вибірки. Чи знаєте ви, чи нормально розподілений базовий розподіл? Чи всі зразки незалежні і однаково розподілені?
Якщо ви сумніваєтесь у достовірності тесту, тоді ви можете скористатися альтернативою завантаження. Запуск завантаження включає переустановку з вашого зразка, щоб побачити, наскільки часто нульова гіпотеза є істинною або хибною. Можливо, ваша нульова гіпотеза становить а ваше р-значення 0,05, але завантаження показує, що середнє значення вибірки становить менше нуля 10% часу. Це вказувало б на те, що саме флюс викликав значення р 0,05, і ви повинні бути менш впевнені, що нульова гіпотеза помилкова.
Вам рідко слід довіряти якомусь одному значному результату. Ви не сказали, чому ви використовували однохвостий замість тесту з двома хвостами, тому, сподіваємось, у вас є вагомі причини для цього, крім того, щоб боротися, щоб мати можливість вимагати статистично значущого результату!
Відклавши це, розглянемо наступне з с. 261 з Sauro, J., & Lewis, JR (2016). Кількісне визначення досвіду користувачів: практична статистика досліджень користувачів, 2-е видання. Кембридж, МА: Морган-Кауфман.
Як Рональд Фішер рекомендував використовувати p-значення
Коли Карл Пірсон був великим старим людиною статистики, а Рональд Фішер був відносним новачком, Пірсон, мабуть, загрожував ідеям і математичним можливостям Фішера, використовував свій вплив, щоб не допустити публікації Фішера у великих статистичних журналах того часу, Biometrika та Journal Королівського статистичного товариства. Отже, Фішер опублікував свої ідеї в багатьох інших місцях, таких як сільськогосподарські та метеорологічні журнали, включаючи декілька праць «Праць Товариства психічних досліджень». Саме в одному з робіт для цього останнього журналу він згадував конвенцію про встановлення того, що ми називаємо прийнятною помилкою типу I (альфа) 0,05, а також критично згадував важливість відтворюваності під час зустрічі з несподіваним значущим результатом:
Спостереження вважається вагомим, якби воно рідко проводилося, за відсутності реальної причини такого роду, якого ми шукаємо. Звичайною є практика судити про результат, якщо він настільки масштабний, що він був би отриманий випадково не частіше одного разу в двадцять випробувань. Це довільний, але зручний рівень значущості для практичного слідчого, але це не означає, що він дозволяє себе обманювати раз на двадцять експериментів. Тест на значимість лише підказує йому, що слід ігнорувати, а саме всі експерименти, в яких значних результатів не отримано. Він повинен лише стверджувати, що явище експериментально демонструється, коли він знає, як спроектувати експеримент, щоб він рідко не зміг дати значного результату. Отже, Окремі значні результати, які він не знає, як відтворити, залишаються в напрузі до наступного розслідування. (Фішер, 1929, стор. 191)
Довідково
Фішер, Р.А. (1929). Статистичний метод у психічних дослідженнях. Праці Товариства психічних досліджень, 39, 189-192.
Уявіть себе, що опинитесь у ситуації, коли ви робите багато подібних тестів, у наборі обставин, коли деяка частка нулів відповідає дійсності.
Дійсно, давайте моделюємо його за допомогою надпростої моделі урн; в урні є пронумеровані кулі, кожна з яких відповідає експерименту, який ви можете зробити, деякі з яких мають значення "null true", а деякі "false" ("" "). Назвіть частку справжніх нулів в урні .
Для подальшого спрощення ідеї припустимо, що потужність для цих помилкових нулів є постійною (при , оскільки β - звичайний символ для коефіцієнта помилок типу II).
Яка частка ваших відхилень буде "правильною"?
(тобто якщо у вас недостатньо висока потужність), багато наших відхилень - це помилки!
Тож, коли розмір вибірки невеликий (а значить, і потужність низька), якщо розумна частка наших нулів була правдою, ми часто робимо помилку при відхиленні.
Ситуація не набагато краща, якщо майже всі наші нулі суворо помилкові - хоча більшість наших відхилень буде правильним (тривіально, оскільки крихітні ефекти все ще строго хибні), якщо потужність не велика, значна частина цих відхилення будуть "в неправильному напрямку" - ми зробимо висновок, що нуль є помилковим часто, тому що випадково вибірка виявилася на неправильній стороні (це може бути один аргумент для використання односторонніх тестів - коли однобічні тести роблять сенс - принаймні уникати відхилень, які не мають сенсу, якщо великі розміри вибірки важко отримати).
Ми можемо побачити, що невеликі розміри вибірки, безумовно, можуть бути проблемою.
[Ця частка неправильних відхилень називається помилковим виявленням ]
Якщо ви маєте уявлення про ймовірний розмір ефекту, ви в кращому становищі, щоб оцінити, який може бути адекватний розмір вибірки. З великими очікуваними ефектами відмова з невеликим розміром вибірки не обов'язково повинна викликати серйозне занепокоєння.
Деякі з оригінальних робіт Госсета (він же Студент), для яких він розробив тест t, включали зразки дріжджів n = 4 і 5. Тест був розроблений спеціально для дуже малих зразків. Інакше нормальне наближення було б добре. Однак Госсет робив дуже обережні, контрольовані експерименти над даними, які він дуже добре розумів. Існує обмеження кількості речей, які пивоварня повинна перевірити, і Госсет провів своє робоче життя в Гіннесі. Він знав його дані.
Я трохи підозрюю ваш акцент на однобічному тестуванні. Логіка тестування однакова, як і гіпотеза, але я бачив, як люди проходять значну однобічну перевірку, коли двостороння була незначною.
Ось що передбачає (верхній) односторонній тест. Ви перевіряєте, що середнє значення дорівнює 0. Ви займаєтесь математикою і готові відмовитися, коли T> 2.5. Ви запускаєте експеримент і спостерігаєте, що T = -50 000. Ви кажете: "phhhhht", і життя продовжується. Якщо фізично неможливо статистика тесту опуститися нижче гіпотезованого значення параметра, і якщо ви ніколи не приймете жодного рішення, якщо статистика тестування буде йти у зворотному напрямку, ніж ви очікували, вам слід скористатися двостороннім тестом.
Головне, про що потрібно хвилюватися - це сила вашого тесту. Зокрема, можливо, вам потрібно зробити аналіз потужності після встановлення потужності, щоб визначити, з якою ймовірністю ви, враховуючи розмір вибірки, визначити справжній суттєвий ефект розумного розміру. Якщо типовий ефект дуже великий, n з 8 може бути цілком адекватним (як у багатьох експериментах з молекулярної біології). Якщо ефекти ви зацікавлені в , як правило , тонкі, проте (як і в багатьох експериментах соціальної психології), п тисяч по- , як і раніше може бути слабенький.
Це важливо, оскільки недостатньо перевірені тести можуть дати дуже оманливі результати. Наприклад, якщо ваш тест недостатній, навіть якщо ви виявите значний результат, ви маєте відносно високу ймовірність зробити те, що Ендрю Гельман називає помилкою "типу S", тобто є реальний ефект, але в зворотному напрямку, або помилка "типу M", тобто є реальний ефект, але справжня величина набагато слабша, ніж оцінено за даними.
Гельман та Карлін написали корисну доповідь про те, як робити аналіз потужності після спеціальних дій, які, на мою думку, застосовуються у вашому випадку. Важливо, що вони рекомендують використовувати незалежні дані (тобто, не тестовані вами дані, а огляди, моделювання, результати подібних експериментів тощо) для оцінки правдоподібного істинного розміру ефекту. Виконуючи аналіз потужності, використовуючи той правдоподібний оціночний розмір справжнього ефекту та порівнюючи з вашими результатами, ви можете визначити ймовірність помилки типу S та типового "коефіцієнта перебільшення" і, таким чином, отримати краще розуміння того, наскільки ваші фактичні фактичні дані.
Можна сказати, що вся суть статистичної значущості полягає у відповіді на питання "чи можна довіряти цьому результату, враховуючи розмір вибірки?". Іншими словами, вся справа в тому, щоб контролювати той факт, що при малих розмірах зразків ви можете отримати гриль, коли реального ефекту не існує. Статистичне значення, тобто p-значення, - це саме відповідь на питання, "якби не існувало реального ефекту, наскільки ймовірним було б я отримати такий великий мозок?". Якщо це дуже малоймовірно, це вказує на те, що це не фальш.
Отже, відповідь "так", якщо значення р низьке, і якщо ви дотримувались правильних статистичних процедур і виконуєте відповідні припущення, то так, це хороші докази і має таку ж вагу, як якщо б ви отримали однакове p-значення з дуже великим розміром вибірки.