Приклади досліджень з використанням p <0,001, p <0,0001 або навіть нижчих p-значень?


11

Я походить із соціальних наук, де р <0,05 - це майже норма, і також з'являються р <0,1 і р <0,01, але мені було цікаво: у яких галузях дослідження, якщо такі є, використовуються нижчі значення p як загальні стандартний?

Відповіді:


9

На мою думку, це не залежить від сфери дослідження. Наприклад, ви цілком можете працювати з меншим рівнем значущості, ніж якщо, наприклад, ви намагаєтесь повторити дослідження з історичними або чітко встановленими результатами (я можу придумати кілька досліджень щодо ефекту Stroop , що призвели до цього до деяких суперечок за останні кілька років). Це означає враховувати нижчий "поріг" в рамках класичної системи Неймана-Пірсона для тестування гіпотези. Однак статистичне та практичне (або предметне) значення - інша справа.p<0.001

Sidenote . "Зоряна система", здається, домінувала в наукових розслідуваннях ще в 70-х роках, але див. "Земля кругла" (p <0,05), Дж. Коен ( американський психолог , 1994, 49 (12), 997-1003), незважаючи на те, що те, що ми часто хочемо знати, це дані, які я спостерігав, яка ймовірність того, що є правдивим? У будь-якому випадку, є також приємна дискусія на тему " Чому P = 0,05? " Джеррі Даллал.H0


Будь ласка, виправте мій порядок думок: деякі поля можуть зосередитись на, скажімо, біохімічному опроміненні, і, отже, хочу використовувати p <0,001 для запобігання будь-якої помилки типу I, яка може призвести до небезпеки для здоров’я. Крім того , по цій статті від Am Psych , я пам'ятаю велике дослідження в Am J з Sociol або один з Soc Sci журналів , які я дотримуюся. Мої улюблені - це, звичайно, Зіляк і Макклоскі .
о.

1
Те, що ви тут описуєте, звучить назад. Я б хвилювався за помилки типу II, кажучи, що чогось там немає, якщо це стосується біохімічного опромінення. У такому випадку я можу встановити альфа вище, а не нижче.
Джон

Я працював при припущенні, що тест матиме форму: "Давайте оцінимо, чи вагітність пов'язана з ЗГТ" (у такому випадку помилка типу I є серйознішою, ніж помилка типу II, але, можливо, ця конструкція нестандартна).
о.

7

Можливо, хтось може використовувати попередньо вказаний рівень альфа, нижчий, скажімо, 0,01, але це не так вже й рідко, що люди заявляють про неявну альфу менше 0,01, помилково вважаючи, що спостережуване значення Р менше 0,01 - це те саме, що альфа Неймана-Пірсона менше 0,01.

Значення P Фішера не збігаються з або взаємозамінні з показниками помилок Неймана-Пірсона. не означає якщо один не вирішив використовувати як критичний рівень значущості при експерименту. Якщо ви взяли б як значущий, то означає, що існує ймовірність помилкової позитивної заяви.α = 0,0023 0,0023 P = 0,05 P = 0,0023 0,05P=0.0023α=0.00230.0023P=0.05P=0.00230.05

Погляньте на Hubbard та ін. Плутанина щодо заходів доказування (p's) порівняно з помилками (α) у класичному статистичному тестуванні. Американський статистик (2003), вип. 57 (3)


Я розумію відмінність, хоча, мабуть, помиляюся звичайно. Але моє запитання: чи є якесь там звичайне використання, наприклад, p <.0001? Або, проголошуючи це, культ p <.05 універсальний?
о.

«Культ» P <0,05 може бути майже універсальним, але неможливо бути впевненим у жодних твердженнях щодо цього, оскільки очевидні винятки, ймовірно, є наслідком невідомої гібридизації методів Фішера та Неймана-Пірсона. У основних дослідженнях фармакологічних досліджень майже ніколи не існує чіткого твердження щодо використання коефіцієнтів помилок Неймана-Пірсона.
Майкл Лев

Дякую за приклад. Мене все менше і менше вражають фармакологічні дослідження з багатьох (не всіх наукових) причин…
о.

1
Ви не повинні сприймати мої коментарі щодо базових фармакологічних досліджень як специфічну критику цієї галузі, це лише моя особлива дисципліна, а отже, та, з якою я найбільше переживаю. Я впевнений, що ви знайдете багато напрямків в базових дослідженнях з абсолютно однаковими недоліками щодо гібридизованих значень Р та рівня помилок.
Майкл Лев

Не хвилюйтесь, я можу легко уявити, що цей недолік добре подорожує через сферу розслідування.
о.

3

Я не дуже добре знайомий з цією літературою, але я вважаю, що деякі фізики в статистичних тестах використовують значно нижчі пороги, але вони говорять про це дещо інакше. Наприклад, якщо міра є трьома стандартними відхиленнями від теоретичного прогнозу, вона описується як відхилення «три сигми». В основному це означає, що параметр, що цікавить, статистично відрізняється від прогнозованого значення в тесті az з α = .01. Дві сигми приблизно еквівалентні α = 0,05 (насправді це було б 1,96 σ). Якщо я не помиляюся, стандартний рівень помилки у фізиці становить 5 сигм, що було б α = 5 * 10 ^ -7

Крім того, в нейрознавстві або епідеміології все частіше здається звичайним виконувати певну корекцію для декількох порівнянь. Отже, рівень помилки для кожного окремого тесту може бути нижчим за p <0,01


1
α=5×108

1

Як зазначає Гаел Лоранс, вище статистичні аналізи, які стикаються з проблемою множинних порівнянь, як правило, використовують більш консервативні пороги. Однак, по суті, вони використовують 0,05, але множать на кількість тестів. Очевидно, що ця процедура (корекція Бонферроні) може швидко призвести до неймовірно малих значень р. Ось чому люди в минулому (в нейронауці) зупинялися на р <0,001. В даний час застосовуються інші методи множинних поправок порівняння (див. Теорію випадкових полів Маркова).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.