Розглянемо наступне зі с. 254-256 Sauro, J., & Lewis, JR (2016). Кількісне визначення досвіду користувачів: практична статистика для досліджень користувачів, 2-е вид. Кембридж, Массачусетс: Морган-Кауфман (ви можете заглянути всередині https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
ЧИ ПОТРІБНО ТЕСТУВАТИ НА МІНШЕ 30 КОРИСТУВАЧІВ?
З ОДНОГО БОКУ
Напевно, більшість із нас, які взяли вступний клас статистики (або знають когось, хто взяв такий клас), почули головне правило, що для оцінки або порівняння значень розмір вибірки повинен бути не менше 30. Відповідно до теореми про центральну межу, в міру збільшення розміру вибірки розподіл середнього стає все більш нормальним, незалежно від нормальності основного розподілу. Деякі симуляційні дослідження показали, що для широкого спектру розподілів (але не для всіх - див. Бредлі, 1978) розподіл середнього значення стає майже нормальним, коли n = 30.
Інша думка полягає в тому, що використовувати z-бали трохи простіше, ніж t-бали, оскільки z-бали не вимагають використання ступенів свободи. Як показано в Таблиці 9.1 та Рис. 9.2, до моменту, коли у вас є близько 30 градусів свободи, значення t стає досить близьким до значення z. Отже, може виникнути відчуття, що вам не доведеться мати справу з невеликими вибірками, які потребують статистичних даних з малих вибірок (Cohen, 1990). ...
З ІНШОГО БОКУ
Якщо вартість вибірки дорога, як це зазвичай відбувається у багатьох видах дослідження користувачів (наприклад, модероване тестування на зручність використання), важливо оцінити необхідний розмір вибірки якомога точніше, розуміючи, що це оцінка. Ймовірність того, що 30 є саме правильним зразком для даної сукупності обставин, дуже низька. Як показано в наших розділах щодо оцінки розміру вибірки, більш підходящим підходом є прийняття формул для обчислення рівнів значущості статистичного тесту і, використовуючи алгебру для вирішення для n, перетворити їх у формули оцінки розміру вибірки. Ці формули потім дають конкретні вказівки щодо того, що потрібно знати чи оцінити для даної ситуації, щоб оцінити необхідний розмір вибірки.
Ідея, що навіть при t-розподілі (на відміну від z-розподілу) потрібно мати розмір вибірки не менше 30, не відповідає історії розвитку дистрибуції. У 1899 році Вільям С. Госсетт, недавній випускник Нью-коледжу в Оксфорді зі ступенем хімії та математики, став одним із перших вчених, які приєдналися до пивоварні Гіннеса. «У порівнянні з гігантами його доби він опублікував дуже мало, але його внесок має вирішальне значення. … Характер процесу пивоваріння, його мінливість у температурі та інгредієнтах означає, що неможливо взяти великі проби протягом тривалого періоду »(Cowles, 1989, стор. 108–109).
Це означало, що Госсетт не міг використовувати z-бали у своїй роботі - вони просто не працюють добре з невеликими зразками. Проаналізувавши недоліки z-розподілу для статистичних тестів невеликими зразками, він розробив необхідні корективи як функцію ступенів свободи для створення своїх таблиць t, опублікованих під псевдонімом «Студент» через політику Гіннеса, що забороняє публікацію працівниками (Зальсбург, 2001). У роботі, яка призвела до публікації таблиць, Госсетт виконав ранню версію моделювання Монте-Карло (Stigler, 1999). Він підготував 3000 карток, позначених фізичними вимірюваннями, зробленими злочинцями, перемішав їх, потім роздав їх на 750 груп розміром 4 - розмір вибірки, значно менший за 30.
НАША РЕКОМЕНДАЦІЯ
Ця суперечка схожа на аргумент "достатньо п'яти" проти "восьми недостатньо" аргументу, описаного в главі 6, але застосовується до підсумкових, а не формаційних досліджень. Для будь-якого дослідження кількість користувачів для тестування залежить від мети тесту та типу даних, які ви плануєте збирати. "Магічне число" 30 має емпіричне обгрунтування, але, на наш погляд, воно дуже слабке. Як видно з численних прикладів цієї книги, що розміри вибірки не рівні 30 (іноді менше, іноді більше), ми не вважаємо це правило дуже важливим. Як описано в нашій главі щодо розміру вибірки для підсумкових досліджень, відповідний розмір вибірки для дослідження залежить від типу розподілу, очікуваної змінності даних, бажаного рівня впевненості та потужності,
Як показано на фіг. 9.2, при використанні t-розподілу з дуже малими зразками (наприклад, зі ступенями свободи менше 5) дуже великі значення t компенсують невеликі розміри вибірки стосовно контролю помилок типу I ( стверджувати, що різниця є суттєвою, коли її насправді немає). Якщо такі невеликі розміри зразків, то ваші довірчі інтервали будуть значно ширшими, ніж ви отримаєте з більшими зразками. Але як тільки ви маєте справу з більш ніж 5 градусами свободи, між величиною z і величиною t є дуже мала абсолютна різниця. З точки зору наближення t до z, за останні 10 градусів свободи дуже мало виграшу.
Використовувати t-розподіл не набагато складніше, ніж z-розподіл (потрібно просто бути впевненим, щоб використовувати правильне значення для ступенів свободи), і причиною розвитку t-розподілу було те, що дозволяють проводити аналіз невеликих зразків. Це лише один із менш очевидних способів, яким практикуючі юзабіліті користуються наукою та практикою пивоваріння. Історики статистики широко розглядають публікацію Госсетта t-тесту Студента як визначну подію (Box, 1984; Cowles, 1989; Stigler, 1999). У листі до Рональда А. Фішера (одного з батьків сучасної статистики), що містить ранню копію т-таблиць, Госсетт написав: "Ви, мабуть, єдиний чоловік, який коли-небудь ними скористається" (Box, 1978). У Госсета було багато прав, але він, звичайно, помилився.
ЛІТЕРАТУРА
Коробка, GEP (1984). Важливість практики у розвитку статистики. Технометрія, 26 (1), 1-8.
Box, JF (1978). Фішер, життя вченого. Нью-Йорк, Нью-Йорк: Джон Вілі.
Бредлі, JV (1978). Міцність? Британський журнал математичної та статистичної психології, 31, 144-152.
Коен Дж. (1990). Те, що я навчився (поки що). Американський психолог, 45 (12), 1304-1312.
Каулз, М. (1989). Статистика в психології: історична перспектива. Хіллсдейл, Нью-Джерсі: Лоуренс Ерльбаум.
Зальсбург, Д. (2001). Дама дегустувала чай: як статистика революціонізувала науку у ХХ столітті. Нью-Йорк, Нью-Йорк: WH Freeman.
Стіглер, С.М. (1999). Статистика на таблиці: Історія статистичних понять і методів. Кембридж, Массачусетс: Гарвардський університетський прес.