Я дізнався, що невеликий розмір вибірки може призвести до недостатньої потужності та помилки 2 типу. Однак у мене є відчуття, що невеликі зразки можуть бути, як правило, ненадійними і випадково можуть призвести до будь-якого результату. Це правда?
Я дізнався, що невеликий розмір вибірки може призвести до недостатньої потужності та помилки 2 типу. Однак у мене є відчуття, що невеликі зразки можуть бути, як правило, ненадійними і випадково можуть призвести до будь-якого результату. Це правда?
Відповіді:
Як загальний принцип, невеликий розмір вибірки не підвищить показник помилок типу I з тієї простої причини, що тест призначений для контролю рівня І типу. (Є невеликі технічні винятки, пов’язані з дискретними результатами, які можуть призвести до того, що номінальний показник типу I не буде досягнутий саме, особливо при малих розмірах вибірки.)
Тут важливий принцип : якщо ваш тест має прийнятний розмір (= номінальний показник I типу) та прийнятну потужність для ефекту, який ви шукаєте, то навіть якщо розмір вибірки невеликий, це нормально.
Небезпека полягає в тому, що якщо ми в іншому випадку мало знаємо про ситуацію - можливо, це всі дані, які ми маємо - тоді нас можуть турбувати помилки "типу III": тобто неправильна специфікація моделі. Їх важко перевірити за допомогою невеликих наборів зразків.
Як практичний приклад взаємодії ідей я поділюсь історією. Давно мене попросили рекомендувати розмір зразка для підтвердження екологічної очистки. Це було під час фази попереднього очищення, перш ніж ми мали будь-які дані. Мій план закликав проаналізувати 1000 зразків, які будуть отримані під час очищення (щоб встановити, що в кожному місці було видалено достатню кількість ґрунту) для оцінки середнього рівня після очищення та дисперсії концентрації забруднень. Потім (щоб значно спростити), я сказав, що ми будемо використовувати формулу підручника, засновану на заданій потужності та розмірі тесту, - щоб визначити кількість незалежних зразків підтвердження, які будуть використані для доведення, що очищення було успішним.
Що запам'ятало це те, що після очищення було зроблено, що формула передбачає використовувати лише 3 зразки. Раптом моя рекомендація виглядала не дуже достовірною!
Причина необхідності лише 3-х зразків полягає в тому, що очищення було агресивним і добре працювало. Це знизило середні концентрації забруднюючих речовин до приблизно 100, що дають або приймають 100 проміле, стабільно нижче мети в 500 проміле.
Врешті-решт, цей підхід спрацював, оскільки ми отримали 1000 попередніх зразків (хоч і меншої аналітичної якості: вони мали більшу помилку вимірювання), щоб встановити, що статистичні припущення насправді є хорошими для цього сайту. Саме так оброблявся потенціал помилки типу III.
Ще один поворот для вашого розгляду: знаючи, що регулююче агентство ніколи не схвалить використання лише 3-х зразків, я рекомендував отримати 5 вимірювань. Вони повинні були бути зроблені з 25 випадкових зразків всього сайту, складених у групи по 5. Статистично було б лише 5 чисел у тесті остаточної гіпотези, але ми досягли більшої сили для виявлення ізольованої "гарячої точки", взявши 25 фізичних зразки. Це підкреслює важливу залежність між кількістю цифр, які використовуються в тесті, і тим, як вони були отримані. Існує більше для прийняття статистичних рішень, ніж просто алгоритми з цифрами!
На моє вічне полегшення, п'ять складених значень підтвердили, що ціль очищення виконана.
Іншим наслідком невеликої вибірки є збільшення помилки типу 2.
У роботі "Місце статистики в психології" 1960 р. Було продемонстровано, що невеликі вибірки, як правило, не відкидають точну нульову гіпотезу. Ці гіпотези - це гіпотеза, яка має деякі параметри дорівнює нулю, і, як відомо, у розглянутому досвіді помилкова.
Навпаки, занадто великі вибірки збільшують помилку типу 1, оскільки значення р залежить від розміру вибірки, але рівень значущості альфа є фіксованим. Тест на такій вибірці завжди відкидає нульову гіпотезу. Прочитайте "Незначущість тестування на статистичну значимість" Джонсона та Дугласа (1999), щоб мати огляд проблеми.
Це не є прямою відповіддю на питання, але ці міркування є додатковими.