Чи може невеликий розмір вибірки викликати помилку типу 1?


21

Я дізнався, що невеликий розмір вибірки може призвести до недостатньої потужності та помилки 2 типу. Однак у мене є відчуття, що невеликі зразки можуть бути, як правило, ненадійними і випадково можуть призвести до будь-якого результату. Це правда?


У мене є відраза до зайвих математичних позначень, тому я відредагував заголовок, чи можете ви, будь ласка, перевірити, що я не змінив значення, змінивши його?
mpiktas

1
Не забудьте також поговорити про тестування гіпотез (тести Неймана-Пірсона), а не тестування значимості (тести Фішера). Ці підходи, як правило, неоднозначні, навіть якщо у другому немає поняття помилки, а правильні звичаї повинні бути різними, оскільки вони призводять до різного роду висновку.
Себ

Якщо ви використовуєте асимптотичний тест, то так, це можливо. В іншому випадку - ні - тест визначається для контролю рівня помилок типу 1 (тобто ). α
Макрос

Але це неправда, якщо ви перегортаєте монети двічі, ви, швидше за все, призведе до перекосу (2 однакові сторони (100%)), ніж коли ви перегортаєте 100 разів, що, швидше за все, призведе до приблизно 1 / 2, 1/2. Чи це не означає, що чим менший розмір, тим більше шансів на те, що ви можете помилитися з типом I?

Відповіді:


27

Як загальний принцип, невеликий розмір вибірки не підвищить показник помилок типу I з тієї простої причини, що тест призначений для контролю рівня І типу. (Є невеликі технічні винятки, пов’язані з дискретними результатами, які можуть призвести до того, що номінальний показник типу I не буде досягнутий саме, особливо при малих розмірах вибірки.)

Тут важливий принцип : якщо ваш тест має прийнятний розмір (= номінальний показник I типу) та прийнятну потужність для ефекту, який ви шукаєте, то навіть якщо розмір вибірки невеликий, це нормально.

Небезпека полягає в тому, що якщо ми в іншому випадку мало знаємо про ситуацію - можливо, це всі дані, які ми маємо - тоді нас можуть турбувати помилки "типу III": тобто неправильна специфікація моделі. Їх важко перевірити за допомогою невеликих наборів зразків.

Як практичний приклад взаємодії ідей я поділюсь історією. Давно мене попросили рекомендувати розмір зразка для підтвердження екологічної очистки. Це було під час фази попереднього очищення, перш ніж ми мали будь-які дані. Мій план закликав проаналізувати 1000 зразків, які будуть отримані під час очищення (щоб встановити, що в кожному місці було видалено достатню кількість ґрунту) для оцінки середнього рівня після очищення та дисперсії концентрації забруднень. Потім (щоб значно спростити), я сказав, що ми будемо використовувати формулу підручника, засновану на заданій потужності та розмірі тесту, - щоб визначити кількість незалежних зразків підтвердження, які будуть використані для доведення, що очищення було успішним.

Що запам'ятало це те, що після очищення було зроблено, що формула передбачає використовувати лише 3 зразки. Раптом моя рекомендація виглядала не дуже достовірною!

Причина необхідності лише 3-х зразків полягає в тому, що очищення було агресивним і добре працювало. Це знизило середні концентрації забруднюючих речовин до приблизно 100, що дають або приймають 100 проміле, стабільно нижче мети в 500 проміле.

Врешті-решт, цей підхід спрацював, оскільки ми отримали 1000 попередніх зразків (хоч і меншої аналітичної якості: вони мали більшу помилку вимірювання), щоб встановити, що статистичні припущення насправді є хорошими для цього сайту. Саме так оброблявся потенціал помилки типу III.

Ще один поворот для вашого розгляду: знаючи, що регулююче агентство ніколи не схвалить використання лише 3-х зразків, я рекомендував отримати 5 вимірювань. Вони повинні були бути зроблені з 25 випадкових зразків всього сайту, складених у групи по 5. Статистично було б лише 5 чисел у тесті остаточної гіпотези, але ми досягли більшої сили для виявлення ізольованої "гарячої точки", взявши 25 фізичних зразки. Це підкреслює важливу залежність між кількістю цифр, які використовуються в тесті, і тим, як вони були отримані. Існує більше для прийняття статистичних рішень, ніж просто алгоритми з цифрами!

На моє вічне полегшення, п'ять складених значень підтвердили, що ціль очищення виконана.


1
(+1) чудова історія про агресивну помилку та помилку типу III , було б непогано, якби це було також актуально для економічних часових рядів. Для детермінованих моделей або моделей з низьким співвідношенням шуму невеликий розмір вибірки IMHO не буде найбільшою проблемою (порівняно з величезним набором дуже галасливих, ймовірно, незалежних великих вибіркових даних, навіть основні компоненти важкі з цими).
Дмитро Челов

1
+1, для тих, хто зацікавлений у подальшому розумінні "технічних винятків, пов’язаних з дискретними результатами", згаданих у першому пункті, я обговорюю такі: Порівнюючи та протиставляючи p-значення, рівні значущості та помилку I типу .
gung - Відновіть Моніку

1
+1, чудовий приклад того, чому ви не можете скористатися диким колом у корисному розмірі зразка без ключової інформації.
Freya Harrison

0

Іншим наслідком невеликої вибірки є збільшення помилки типу 2.

У роботі "Місце статистики в психології" 1960 р. Було продемонстровано, що невеликі вибірки, як правило, не відкидають точну нульову гіпотезу. Ці гіпотези - це гіпотеза, яка має деякі параметри дорівнює нулю, і, як відомо, у розглянутому досвіді помилкова.

Навпаки, занадто великі вибірки збільшують помилку типу 1, оскільки значення р залежить від розміру вибірки, але рівень значущості альфа є фіксованим. Тест на такій вибірці завжди відкидає нульову гіпотезу. Прочитайте "Незначущість тестування на статистичну значимість" Джонсона та Дугласа (1999), щоб мати огляд проблеми.

Це не є прямою відповіддю на питання, але ці міркування є додатковими.


+1 за виклик випуску великих зразків та помилки типу I
Джош Геманн

6
-1, коментар про те, що "занадто великі вибірки збільшують помилку 1 типу", є невірним. Ви можете заплутати статистичну значимість та практичну значимість, оскільки може існувати ситуація, коли справжній ефект не точно 0, але настільки малий, що він є несуттєвим, і ми вважатимемо, що нульове значення є "справжнім" для практичних цілей . У цьому випадку нуль буде відхилено більше (наприклад) 5% часу, а частіше з / збільшуючи N. Однак, строго кажучи, нульова гіпотеза про те, що справжній ефект точно 0, за умовою є хибною. Таким чином, ці відхилення насправді не є помилками типу I.
gung - Відновіть Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.