Щодо p-значень, чому 1% та 5%? Чому б не 6% чи 10%?


80

Щодо s, мені цікаво, чому % та % здаються золотим стандартом . Чому б не інші значення, наприклад, % чи %?15"statistical significance"610

Чи є в цьому фундаментальна математична причина, чи це просто широко поширена конвенція?


2
Що робити, якщо у кожного було 12 пальців? Ми б рахували базу 12, а не базу 10. А це означає, що "1%" було б 1/144 або 0,0069444444.
Контанго

Відповіді:


77

Якщо ви переглянете наведені нижче посилання, то у фоновому режимі ви знайдете досить багато варіацій, хоча є деякі загальні елементи.

Ці цифри принаймні частково базуються на коментарях Фішера, де він сказав

(при обговоренні рівня 1/20)

Зручно сприймати цю точку як межу, коли судити про те, чи слід відхилення вважати суттєвим чи ні. Відхилення, що перевищують удвічі більше стандартного відхилення, формально вважаються значними

Fisher, RA (1925) Статистичні методи для наукових працівників , с. 47

З іншого боку, він часом був ширшим:

Якщо кожен двадцять не здається достатньо високим шансом, ми можемо, якщо вважатимемо за краще, провести лінію на п’ятдесят (2-відсотковий бал) або на кожну сотню (1 відсотковий бал). Особисто письменник вважає за краще встановити низький рівень значущості на рівні 5 відсотків і повністю ігнорувати всі результати, які не зможуть досягти цього рівня. Науковий факт слід розглядати як експериментально встановлений лише у тому випадку, якщо правильно розроблений експеримент рідко не вдається надати цьому рівню значущості.

Fisher, RA (1926) Розташування польових експериментів . Журнал Міністерства сільського господарства, с. 504

Фішер також використовував 5% для однієї зі своїх книжок, але більшість інших таблиць мали більшу різноманітність рівнів значущості

Деякі його коментарі пропонують більш чи менш суворі (тобто нижчий або вищий рівень альфа) у різних ситуаціях.

Таке обговорення вище призводило до тенденції до створення таблиць з фокусом 5% та 1% рівнів значущості (а іноді й з іншими, наприклад, 10%, 2% та 0,5%) для того, щоб використовувати будь-які інші «стандартні» значення для використання.

Однак у цьому документі Каулз і Девіс припускають, що використання 5% - або щонайменше щось близьке до нього - йде далеко далі від коментаря Фішера.

Коротше кажучи, наше використання 5% (і в меншій мірі 1%) - це майже умовна умова, хоча, очевидно, багато людей, здається, відчувають, що для багатьох проблем вони знаходяться в потрібному вигляді.

Немає жодної причини, щоб взагалі не було використано конкретне значення.

Додаткові посилання:

Даллал, Джерард Е. (2012). Маленький посібник зі статистичної практики. - Чому 0,05?

Стіглер, Стівен (грудень 2008 р.). "Фішер та рівень 5%". Шанс 21 (4): 12. тут

(Між ними ви отримуєте неабияку передісторію - схоже, що між ними є хороший випадок, коли рівень значущості мислення принаймні в загальному 5% - скажімо, від 2% до 10% - був більш-менш у повітря на деякий час.)


36

Я повинен дати невідповідь (те саме, що тут ):

"... безумовно, Бог любить .06 майже так само, як і .05. Чи можна сумніватися, що Бог розглядає силу доказів за або проти нуля як досить безперервну функцію величини p?" (с.1277)

Роснов, Р.Л., Розенталь, Р. (1989). Статистичні процедури та обґрунтування знань у психологічній науці. Американський психолог , 44 (10), 1276-1284. pdf

Документ містить ще кілька обговорень з цього питання.


9
А як щодо 0,055? :)
nico

33
@nico Нікому не подобається 0.055
Фоміт,

18

Я вважаю, що існує певна психологія на основі 5%. Треба сказати, що я не пам’ятаю, де я взяв це, але ось вправу, яку я робив із кожним класом введення в статистику нижчої категорії.

Уявіть, що незнайомець підходить до вас у паб і каже вам: "У мене є упереджена монета, яка виготовляє голови частіше, ніж хвости. Чи хотіли б ви придбати її у мене, щоб ви могли зробити ставку з приятелями і заробляти на цьому гроші?" Ви нерішуче погоджуєтесь поглянути і киньте монету, сказавши 10 разів. Питання : скільки разів доводиться висаджувати голови / хвости, щоб переконати вас у тому, що це упереджено?

Тоді я беру на себе руки: хто був би переконаний, що монета упереджена, якщо розкол 5/5? 4/6? 3/7? 2/8? 1/9? 0/10? Ну, перші два-три нікого не переконують, а останній переконує всіх; 2/8 та 1/9 переконали б більшість людей. Тепер, якщо подивитися на біноміальну таблицю, 2/8 становить 5,5%, а 1/9 - 1%. QED.

Якщо хтось зараз викладає курс з інтрограду, я б закликав вас також виконати цю вправу та розмістити свої результати як коментарі, щоб ми могли накопичити великий масив результатів метааналізу та опублікувати їх принаймні в американській Навчальний куточок статистиків . Не соромтеся змінювати та односторонні та двосторонні умови!n

В іншій відповіді Glen_b цитує Фішера, який надає дискусію про те, чи слід змінювати ці магічні числа залежно від того, наскільки серйозна проблема, тому, будь ласка, не вдавайте її "Існує нове лікування лейкемії вашої сестри, але це може вилікувати її в 3 місяці або вбий її за 3 дні, тож давайте перекинемо трохи монет "- це виглядало б так само дурно, як сумнозвісний комікс xkcd, що навіть Ендрю Гелману це не дуже подобалось.

Говорячи про монети та Гельман, TAS мав дуже цікавий документ від Гельмана та Нолана під назвою "Ви можете завантажити штамп, але ви не можете змістити монету" , висуваючи аргумент, що монета перекинулася в повітря або крутилася на стільниця, витратить приблизно половину часу головою вгору, а інший час хвостиком, тому важко придумати фізичний механізм, щоб серйозно змістити монету. (Це явно було дослідження, яке проводиться в пабі, коли вони експериментували з ковпачками для пляшок пива.) З іншого боку, завантажувати штамп - це досить просто, і я дав студентам вправу в цьому із приблизно 1 см / половину -в дюймових дерев'яних кубиках з місцевого магазину хобі та наждачного паперу, щоб просити їх завантажити матрицю, і довести мені, що це завантажено - що було вправою в тесті Пірсона на пропорції та його потужність.χ2


3
Маги часто можуть контролювати гортання монети. Статист-математик-фокусник (перестановка на смак) Персі Діаконіс добре відомий цим (і багато, багато іншого).
Нік Кокс

@StasK - Кілька років тому я поставив запитання, схоже на те, що у другому абзаці вище. Ось посилання: stats.stackexchange.com/questions/7036/…
bill_080

законопроект, ви питали про владу, по суті. Це питання стосується рівня тесту.
Стаск

9

5%, схоже, Фішером округлили від 4,56%, що відповідає "хвостовим ділянкам кривої понад середнього плюс три або мінус три ймовірні помилки" (Hurlbert & Lombardi, 2009).

Іншим елементом історії, здається, є відтворення таблиць з критичними властями (Pearson et al., 1990; Lehmann, 1993). Фішер не отримав дозволу Пірсона використовувати свої столи (ймовірно, через маркетинг Пірсона його власної публікації (Hurlbert & Lombardi, 2009) та проблематичність їх відносин.

Hurlbert, SH, & Lombardi, CM (2009, жовтень). Остаточний крах теоретичної бази рішень Неймана-Пірсона та підйом неофішерського народу. В Annales Zoologici Fennici (т. 46, № 5, с. 311–349). Фінське зоологічне та ботанічне видавництво

Lehmann, EL (1993). Теорії Фішера, Неймана-Пірсона тестування гіпотез: одна теорія чи дві ?. Журнал Американської статистичної асоціації, 88 (424), 1242-1249.

Pearson, ES, Gosset, WS, Plackett, RL, & Barnard, GA (1990). Учень: статистична біографія Вільяма Сілі Госсета. Oxford University Press, США.

Дивіться також: Gigerenzer, G. (2004). Бездумна статистика. Журнал Socio-Economics, 33 (5), 587-606.

Hubbard, R., & Lindsay, RM (2008). Чому значення Р не є корисною мірою доказів при тестуванні на статистичну значимість Теорія та психологія, 18 (1), 69-88.


7

Мені здається, відповідь більше в теорії ігор дослідження, ніж у статистиці. Якщо 1% і 5% згоріли в загальній свідомості, це означає, що дослідники не можуть вільно вибирати рівні значущості, що відповідають їх схильності. Скажімо, ми побачили документ із значенням p .055, і де рівень значущості був встановлений на рівні 6% - запитання будуть задані. 1% і 5% - це форма надійного зобов'язання.


7
Можливо, але ви вважаєте, що дослідники не маніпулюють регресіями, використовують повторне тестування тощо, щоб стиснути під встановлений 5% рівень, наприклад ...
kirk

Звичайно, це можливо, і, мабуть, і трапляється. Але питання було близько 1% і 5%. Мені здається, це спроба встановити соціальну конвенцію щодо того, коли слід прийняти щось таке важливе. Вони є довільними, але вони довільні для дослідників як групи, а не довільних для окремих дослідників.
вигадки

3
Погодившись, я просто вказував, що мати загальноприйняті рівні значущості не означає, що питань не слід задавати, як ви зробили висновок у своїй посаді. Тільки тому, що папір представляє значний результат на загальноприйнятому рівні, це не означає, що вона є достовірною!
кірк

Ах, я користувався достовірним у сенсі теорії ігор (або намагався). Як і ви робите загрозу надійною, якщо це не те, від чого ви можете відмовитися чи змінити свою думку пізніше. У такому випадку окремим дослідникам важко було б вийти на інший довільний поріг.
вигадки

2
Те, що стосується @kirk, безумовно, трапляється. Це називається хакінг . p
Нік Стаунер

6

Моя особиста гіпотеза полягає в тому, що 0,05 (або 1 з 20) асоціюється зі значенням at / z (дуже близьким до) 2. Використання 2 приємно, тому що це дуже легко помітити, якщо ваш результат є статистично значущим. Немає інших злиття круглих чисел.


7
Сумніваюся, це правильно. Звичайно, існують "злиття круглих чисел": чому б не використати, наприклад, критичне значення або ? Більше того, століття тому ніхто не цурався складання обширних таблиць критичних цінностей, тому важко зрозуміти, звідки б мотивація взялася. Z = 3Z=1Z=3
whuber

9
Навпаки, вони дають приємні цифри! Для нормального розподілу шанси приблизно , , та при . Усі ці наближення точні до кращої, ніж одна значна цифра - і "1 на 20" - це найгірший згусток (1 на 22 було б набагато ближче до істини). 1 / 20 1 / 400 1 / +16000 г = 1 , 2 , 3 , 41/31/201/4001/16000z=1,2,3,4
whuber

1
:) Хм ... хороший момент. Але вам потрібно обмежуватись тим, що ви використовували б як відсікання - 1/3 - це трохи млявий, а 1/400 - суворий дотик.
Джеремі Майлз

10
Саме так я і стикаюся, Джеремі: традиція 5% і 1% базується, принаймні частково, на концепції статистичного ризику ("трохи млявий" або "жорсткий дотик") і не спочатку походять від будь-якого зручного правила.
whuber

1
@whuber Використання дає приблизно , і ви не можете отримати набагато більше, ніж це! 1 / πZ=11/π
Джеймс

6

Єдине правильне число - .04284731

... що є легковажною відповіддю, покликаної означати, що вибір .05 по суті є довільним. Зазвичай я просто повідомляю про значення p, а не про те, що значення p більше або менше.

«Значущість» - це суцільна змінна величина, і, на мою думку, дискретизація її часто приносить більше шкоди, ніж користі. Я маю на увазі, якщо p = .13, ви маєте більше впевненості, ніж якщо p = .21 і менше, ніж якщо p = .003


Що ж, у часи таблиць один був більш-менш змушений дискретизувати ... оскільки таблиці використовуються у навчанні, це продовжується ...
kjetil b halvorsen

@kjetilbhalvorsen добре, що виробники таблиць явно помилилися, не вибравши .04284731 для своїх критичних значень.
generic_user

2

Це область тестування гіпотез, яка мене завжди захоплювала. Зокрема, тому, що одного дня хтось визначився з якоюсь довільною цифрою, яка дихотомізувала процедуру тестування, і відтоді люди рідко ставлять під сумнів це.

Я пам’ятаю, що лектор говорив нам не надто вірити в тест Стайгера та Стока інструментальних змінних (де F-stat повинен бути вище 10 на першому етапі регресії, щоб уникнути слабких проблем з інструментом), оскільки число 10 було повністю довільний вибір. Я пам’ятаю, що говорив "Але хіба це не те, що ми робимо при регулярному тестуванні гіпотез ?????"


5
Це призначено як відповідь, @EconStats? Це здається скоріше коментарем. Пам’ятайте, що резюме не призначене для дискусійного форуму. Ви б не заперечували, щоб відповідь, коли це повідомлення було більш помітним?
gung

1
Вибачте @gung. Думаю, моя думка полягала в тому, що, незважаючи на деякі докази, надані іншими користувачами, я все ще думаю, що найбільш ймовірною відповіддю є те, що у нас існує система нумерації на основі десяткових знаків, і вона все ще використовується сьогодні для створення довільних чисел для тестів на гіпотезу. наприклад, про те, що я згадував, F-тест Стайгера та Фонду.
EconStats

1
Як оригінальний афіша цього питання, я вважаю, що це безумовно кваліфікується як відповідь. Дякую!
Контанго

0

Чому 1 і 5? Тому що вони почувають себе правильно.

Я впевнений, що існують дослідження емоційної цінності та когнітивної виразності конкретних чисел, але ми можемо зрозуміти вибір 1 і 5, не вдаючись до досліджень.

Люди, які створили сьогоднішню статистику, народилися, виросли і живуть у десятковому світі. Звичайно, існують недесяткові системи підрахунку, і підрахунок до дванадцяти за допомогою фалангів можливо і вже зроблено, але це не очевидно так само, як використання пальців (які тому називаються "цифрами", як числа ). І хоча ви (і Фішер), можливо, знаєте про недесяткові системи підрахунку, десяткова система є і була переважаючою системою підрахунку вашого (і світу Фішера) за останні сто років.

Але чому числа п'ять і одне особливе? Тому що обидва - це найбільш природно відомі відділи основної десятки: один палець, одна рука (або: половина).

Вам навіть не потрібно йти так далеко, щоб концептуалізувати дроби, щоб отримати від десяти до одного і п'яти. Той просто там, як і палець просто там. І навпіл щось - це операція, набагато простіша, ніж поділ її на будь-яку іншу пропорцію. Розрізати що-небудь на дві частини не потрібно думати, тоді як розділити їх на три-чотири вже досить складно.

Більшість поточних валютних систем мають монети та банкноти зі значеннями, такими як 1, 2, 5, 10, 20, 50, 100, 200, 500, 1000. Деякі валютні системи не мають 2, 20 та 200, але майже всі мають такі початку в 1 і 5. У той же час більшість валютних систем не мають монети чи банкнот, які починаються в 3, 4, 6, 7, 8 або 9. Цікаво, чи не так? Але чому це так?

Тому що вам завжди потрібно або десять із 1-х, або два з 5-х (або п’ять із 2-х), щоб прийти до наступного більшого замовлення. Розрахувати з грошима дуже просто: разів десять чи подвійно. Всього два види операцій. Кожна наявна у вас монета - це половина або десята частина монети наступного замовлення. Ці числа множуються та складаються легко та добре.

Таким чином, 1 і 5 були глибоко вбудовані, починаючи з самого раннього дитинства, у Фішера і того, хто ще обрав рівні значущості як найпростіший, найпростіший, найосновніший поділ 10. Будь-яке інше число потребує аргументу для цього, тоді як ці номери просто є.

За відсутності об'єктивного способу розрахунку відповідного рівня значущості для кожного окремого набору даних, один та п’ять просто відчувають себе правильно.


"не вдаючись до досліджень". Хоча я вважаю, що відповідь є приємною, але це твердо ставить її на думку думок. Це дало б велику довіру і зробило б відповідь більш авторитетною, якби були джерела, які б це підтвердили.
Момо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.