Наведіть курсор миші на будь-який тег( - це підроблений тег), що відображається нижче, щоб побачити короткий уривок його вікі. Пробачте, будь ласка, порушення міжрядкових інтервалів. Мені здається, що уривки з тегів можуть допомогти читачам перевірити розуміння жаргону під час читання. Деякі з цих уривків також можуть заслуговувати редагування, тому вони також заслуговують на публіцист, ІМХО.←
p>.05 зазвичай означає, що не слід відкидатинульова гіпотеза. І навпаки,type-i-помилкиабо помилкові позитиви виникають, коли відхилити нуль черезвідбір проб помилка чи інший незвичайний випадок, який спричиняє зразокщо в іншому випадку малоймовірно (як правило, з ), було відібрано випадково з аp<.05населенняв якому нуль істинний. Результат з який називається помилковим додатним, здається, відображає нерозуміння нульової гіпотезиp>.05тест на значимістьing (NHST). Нерозуміння не є рідкістю у опублікованій дослідницькій літературі, оскільки NHST є, як відомо, протиінтуїтивно зрозумілим. Це один із гучних вигуківбайєсівськийвторгнення (яке я підтримую, але не слідую… поки). Я працював із помилковими враженнями, такими як ці, до недавнього часу, тому симпатизую найщиріше.
@DavidRobinson є правильним, зауважуючи, що - не ймовірність того, що нуль виявиться помилковимpчастолістNHST. Це (принаймні) один з Гудмана (2008) «Брудна Дюжина» неправильні уявлення про значень p (також див Hurlbert & Lombardi 2009 ) . У NHST - цеpймовірність що можна було б намалювати будь-які майбутні випадкові вибірки тими самими засобами, які виявляли б співвідношення чи різницю (чи будь-яку іншу) ефект-розміртестується на нульове значення, якщо існують інші різновиди ефекту розміру ...?) принаймні настільки ж відмінний від нульової гіпотези, як вибірки (ів) з тієї ж популяції (груп), яку випробував, щоб досягти заданого значення , якщо нуль вірно. Тобто - ймовірність отримання вибірки, такої як ваша, з урахуванням нуля ; це не відображає ймовірності нуля - принаймні, не безпосередньо. І навпаки, байєсівські методи пишаються тим, що вони формулюють статистичні аналізи, орієнтовані на оцінку доказів за чи протиppдоТеорія ефекту з урахуванням даних , які, як вони стверджують, є більш інтуїтивно привабливим підходом ( Wagenmakers, 2007 ) , серед інших переваг, і усунення дискусійних недоліків. (Справедливо кажучи, див. " Які мінуси байєсівського аналізу? " Ви також прокоментували цитування статей, які можуть запропонувати там гарні відповіді: Moyé, 2008; Hurlbert & Lombardi, 2009. )
Можна стверджувати, що нульова гіпотеза, як це було дослівно викладено, часто швидше, ніж не помиляється, оскільки нульові гіпотези - це найчастіше, буквально гіпотези нульового ефекту. (Деякі зручні зустрічні приклади див. Відповіді на тему : " Чи великі набори даних не підходять для тестування гіпотез? ") Філософські питання, такі як ефект метелика, загрожують буквальномутермін діїбудь-якої такої гіпотези; отже, нуль корисний як правило як основа порівняння для альтернативної гіпотези деякого ненульового ефекту. Така альтернативна гіпотеза може залишатися більш правдоподібною, ніж нульова після збирання даних, які були б малоймовірними, якби нуль був правдивим . Отже, дослідники зазвичай знаходять підтримку альтернативної гіпотези із доказів проти нуля, але це не те, щор-значеннякількісно визначити безпосередньо ( Wagenmakers, 2007 ) .
Як ви підозрюєте, статистичне значення є функцією обсяг вибірки, а також розмір ефекту та консистенцію. (Див @ відповідь Гун на недавній питання, « Як може т-тест статистично значущими , якщо середня різниця майже 0? ») Питання , які ми часто маємо намір просити наших даних є: «Що таке ефект xна y? " З різних причин (включаючи ІМО, помилкові уявлення та інакше дефіцитні освітні програми в статистиці, особливо як викладають нестатисти), ми часто опиняємось замість того, щоб буквально задати невірно пов'язане питання: "Яка ймовірність вибірки даних, таких як моя, випадково від населення, на яке xце не впливає y? " Це суттєва різниця між оцінкою розміру ефекту та тестуванням значимості відповідно. АpЗначення відповідає лише на останнє питання безпосередньо, але декілька професіоналів (@rpierce, певно, можуть дати вам кращий список, ніж я; вибачте, я затягнув вас у це!) стверджували, що дослідники неправильно читали як відповідь на колишнє питання про розмір ефекту всіх надто часто; Боюся, що я повинен погодитися.p
Для більш прямого відповіді щодо значення , це ймовірність вибірки даних випадковим чином із популяції, нуль якої є правдою, але це виявляє співвідношення чи різницю, що відрізняється від того, яке описує нуль буквально принаймні настільки ж широкий і послідовний запас, як це роблять ваші дані ... <вдих> ... становить від 5 до 95%. Можна, звичайно, стверджувати, що це є наслідком розміру вибірки, оскільки збільшення розміру вибірки покращує здатність виявляти невеликі та непослідовні розміри ефектів та відрізняти їх від нульового, скажімо, нульового ефекту з достовірністю понад 5%. Однак малі та непослідовні розміри ефектів можуть бути або не бути значними прагматично ( статистично значущими).05<p<.95≠- ще один брудний десяток Гудмена (2008); це значно більше залежить від значення даних, статистичне значення яких стосується лише обмеженої міри. Дивіться мою відповідь на вищесказане .
Чи не слід правильно називати результат безумовно помилковим (а не просто непідтримуваним), якщо ... p> 0,95?
Оскільки дані зазвичай мають представляти емпірично фактичні спостереження, вони не повинні бути помилковими; тільки умовиводи щодо них повинні стикатися з цим ризиком в ідеалі. (Помилка вимірювання теж трапляється, звичайно, але це питання дещо виходить за рамки цієї відповіді, тому окрім згадки про це тут, я залишу це в спокої.) ніж альтернативна гіпотеза, принаймні, якщо підсудний не знає, що нуль є істинним. Тільки за досить важкої для розуміння обставини знання того, що нульове значення є буквально правдивим, висновок на користь альтернативної гіпотези був би безумовно хибним ... принаймні, наскільки я можу собі уявити на даний момент.
Очевидно, що широкомасштабне використання або конвенція не є найкращим авторитетом щодо епістемічної чи інфекційної чинності. Навіть опубліковані ресурси є помилковими; див., наприклад, помилковість у визначенні p-значення . Ваша довідка ( Hurlbert & Lombardi, 2009 ) пропонує також цікаве викладення цього принципу (стор. 322):
StatSoft (2007) на своєму веб-сайті може похвалитися, що їхній онлайн-посібник "є єдиним Інтернет-ресурсом зі статистичних даних, рекомендованим Енциклопедією Бретаніка". Ніколи це не було настільки важливим для "Авторитету недовіри", як говорить наклейка на бампері. [Комічно зламана URL-адреса, перетворена на гіперпосилання.]
Ще один випадок: ця фраза у нещодавній статті Nature News ( Nuzzo, 2014 ) : "Значення P, загальний індекс міцності доказів ..." Див. Wagenmakers ' (2007, стор. 787) "Проблема 3: Цінності не оцінюють статистичні дані "... Однак @MichaelLew ( Lew, 2013 ) не погоджується з тим, що вам може бути корисним: він використовуєppзначення для індексації ймовірності функцій. Однак, наскільки ці опубліковані джерела суперечать одне одному, принаймні одне повинно бути помилковим! (На якомусь рівні, я думаю ...) Звичайно, це не так вже й погано, як "ненадійне" саме по собі. Я сподіваюсь, що я можу примусити Майкла сюди присказати, позначивши його так, як у мене є (але я не впевнений, що теги користувачів надсилають повідомлення під час редагування - я не думаю, що ваші в ОП зробили). Він може бути єдиним, хто може врятувати Нуццо - навіть саму Природу ! Допоможіть нам Оби-Ван! (І вибачте мені, якщо моя відповідь тут свідчить про те, що я все-таки не зрозумів наслідків вашої роботи, які, напевне, маю в будь-якому випадку ...) BTW, Nuzzo також пропонує інтригуючу самозахист та спростування "Проблема 3" Вагенмейкера: див. "Можливу причину" Нуццо( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 ) . Вони просто можуть містити відповідь, яку ви справді шукаєте, але я сумніваюся, що я міг би сказати.
Re: Ваше запитання з декількома варіантами, я вибираю d. Можливо, ви неправильно трактували тут деякі поняття, але ви, звичайно, не самотні, якщо так, і я залишу це рішення вам, як тільки ви знаєте, у що ви дійсно вірите. Помилкове тлумачення передбачає певну певність, тоді як задавати питання означає протилежне, і цей порив до питання, коли непевне, є досить похвальним і далеко не повсюдним, на жаль. Це питання людської природи робить некоректність наших конвенцій, на жаль, нешкідливою і заслуговує на такі скарги, на які йдеться тут. (Частково дякую вам!) Однак ваша пропозиція теж не зовсім коректна.
Кілька цікавих обговорень проблем, пов’язаних із pЗначення, в яких я брав участь, відображається в цьому запитанні: Встановлення закріплених поглядів p-значень . У моїй відповіді перераховано декілька посилань, які можуть бути корисними для ознайомлення з подальшими тлумаченнями проблем та альтернативpзначення. Будьте попереджені: я все ще сам не потрапив на дно цієї конкретної кролячої нори , але можу принаймні сказати вам, що вона дуже глибока . Я все ще дізнаюся про це сам (інакше я підозрюю, що буду писати з більш байєсівської точки зору [редагувати]: а може, перспектива NFSA ! Hurlbert & Lombardi, 2009 ) , я в кращому випадку слабкий авторитет, і я вітаю будь-які виправлення чи уточнення, які інші можуть запропонувати до того, що я тут говорив. Я можу зробити висновок лише про те, що, мабуть, є математично правильна відповідь, і, можливо, більшість людей помиляються. Правильна відповідь, безумовно, не приходить легко, як свідчать наступні посилання ...
PS За запитом (начебто ... я визнаю, я дійсно просто вирішую це питання, а не працюю над цим), це питання є кращою орієнтацією на іноді рівномірний розподілpз урахуванням нуля: " Чому р-значення розподіляються рівномірно під нульовою гіпотезою? " Особливий інтерес викликають коментарі @ whuber, які викликають клас винятків. Як це дещо вірно з дискусією в цілому, я не дотримуюся 100% аргументів, не кажучи вже про їх наслідки, тому я не впевнений, що ці проблеми зpрівномірність розподілу насправді є винятковою. Боюсь, ще одна причина глибокої статистичної плутанини ...
Список літератури
- Гудман, С.Н. (1992). Коментар щодо тиражування, P- значень та доказів. Статистика в медицині, 11 (7), 875–879.
- Гудман, С.Н. (2001). З P -значень та Байєса: скромна пропозиція. Епідеміологія, 12 (3), 295–297. Отримано з http://swfsc.noaa.gov/uploadedFiles/Division/PRD/Programs/ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposed.6.pdf .
- Гудман, С. (2008). Брудний десяток: Дванадцять Р -значні помилки. Семінари з гематології, 45 (3), 135–140. Отримано з http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Нерепликація досліджень асоціацій: «псевдовідмови» для копіювання? Генетика в медицині, 9 (6), 325–331. Отримано з http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH, & Lombardi, CM (2009). Остаточний крах теоретичної бази рішень Неймана-Пірсона та підйом неофішерського народу. Annales Zoologici Fennici, 46 (5), 311–349. Отримано з http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). До P чи ні до P: Про доказовий характер P-значень та їх місце в науковому висновку. arXiv: 1311.0081 [стат.МЕ]. Отримано зhttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Байєси в клінічних випробуваннях: сплять при перемиканні. Статистика в медицині, 27 (4), 469–482.
- Нуццо, Р. (2014, 12 лютого). Науковий метод: Статистичні помилки. Природні новини, 506 (7487). Отримано з http://www.nature.com/news/scientist-method-statistic-errors-1.14700 .
- Wagenmakers, EJ (2007). Практичне вирішення поширених задач p- значень. Психономічний вісник та огляд, 14 (5), 779–804. Отримано з http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .