Походження порогу "5

33

Новини повідомляють, що CERN оголосить завтра, що бозон Хіггса був експериментально виявлений з доказами 5 . Відповідно до цієї статті: $\sigma$

5 означає 99,99994% шансів, що дані, які бачать детектори CMS та ATLAS, є не просто випадковим шумом - а 0,00006% шансів, що їх підключили; 5 - необхідна впевненість, щоб щось офіційно було позначено науковим "відкриттям". $\sigma$ $\sigma$

Це не надто суворо, але здається, що фізики використовують стандартну статистичну методологію "тестування гіпотез", встановлюючи до , що відповідає (двоступеневе)? Або є якесь інше значення? $\alpha$ $0.0000006$ $z=5$

Здебільшого в науці, звичайно, встановлення альфи до 0,05 здійснюється звичайно. Це було б рівнозначно доказом "два ", хоча я ніколи не чув, щоб його називали так. Чи є інші поля (крім фізики частинок), де стандартне набагато суворіше визначення альфа? Хтось знає посилання на те, як правило п'ять було прийнято фізикою частинок? $\sigma$ $\sigma$

Оновлення: я задаю це питання з простої причини. Моя книга " Інтуїтивна біостатистика" (як і більшість книг статистики) має розділ, який пояснює, наскільки довільним є звичайне правило "P <0,05". Я хотів би додати цей приклад наукової галузі, де набагато (набагато!) Менше значення вважається необхідним. Але якщо приклад насправді складніший, із застосуванням байєсівських методів (як показують деякі коментарі нижче), то це було б не дуже влучно або вимагало б набагато більше пояснень. $\alpha$

hypothesis-testing p-value history

— Харві Мотульський
джерело

2

Коли-небудь чули про "Шість знаків" ?

— Daniel R Hicks

У контролі якості розглядаються шість сигм, як пропонує Даніель зі своїм питанням / зауваженням. Всі ці ймовірності відхилення припускають вибірку з нормального розподілу, а хвостові ймовірності можуть бути більшими для інших розподілів. Використання таких крайнощів, як 5 або 6 сигма, може бути корисним лише в особливих обставинах. На практиці розмір вибірки та мінливість даних роблять висновки понад 2 або 3 сигми нездійсненними.

— Майкл Р. Черник

1

В основному, більшість фізиків-частинок зручніше байесівських ідей при обчисленні параметрів, тому вони насправді "на

впевнені, враховуючи дані та пріори, що сигнал Хіггса не дорівнює нулю", що, безумовно, відрізняється від того, що сказати, що там є лише "0,01 відсотка шанс сигналу бути випадковим шумом" (є й випадкові коливання, що виникають і з систематики!). [1]: physics.stackexchange.com/questions/8752/…

X %

$X\%$

— Нестор

3

@ Нестор: Я зараз дивлюсь пряму трансляцію прес-конференції Хіггса, і ніхто не згадує байєсівські інтерпретації. "p-значення" та "рівень значущості" використовуються, але лише жахливо дезінформований байєсівський інтерпретуватиме це як ймовірність того, що сигнал є випадковим шумом. Я думаю, що текст у цитаті у питанні ОП просто є неправильним тлумаченням того, що є насправді р-значенням.

— MånsT

1

До речі, я написав у своєму блозі повідомлення про це питання: randomastronomy.wordpress.com .

— Нестор

13

У більшості застосувань статистики є те, що старий каштан про те, що "всі моделі неправильні, деякі корисні". У цьому випадку ми очікували, що модель може виконатись на заданому рівні, оскільки ми описуємо якийсь неймовірно складний процес, використовуючи просту модель.

Фізика дуже відрізняється, тому інтуїція, розроблена на основі статистичних моделей, не така підходяща. У фізиці, зокрема фізиці частинок, яка безпосередньо стосується фундаментальних фізичних законів, модель насправді повинна бути точним описом реальності. Будь-який відхід від того, що прогнозує модель, повинен бути повністю пояснений експериментальним шумом, а не обмеженням моделі. Це означає, що якщо модель хороша і правильна і експериментальний апарат зрозумів, що статистична значимість повинна бути дуже високою, отже, встановлена висока планка.

Інша причина - історична, спільнота фізики частинок в минулому спалювалася "відкриттями", які на нижчих рівнях значущості пізніше були відкликані, отже, зараз вони є більш обережними.

— Богдановіст
джерело

1

Чи згодні ви з тим, що фізика використовує стандартне тестування статистичної гіпотези з дуже низькою альфа (у цьому випадку все одно). Або вони використовують якийсь байєсівський підхід, як сказав Нестор у коментарі вище?

— Харві Мотульський

2

Я розумію, як спілкуватися з деякими людьми, яких я знаю, які працюють над ATLAS, - це те, що аналіз дуже байєсів. Однак це хлопці нижчого рівня (тобто ті, хто насправді виконують роботу). Мене не здивувало б, якби деякі говірки, що розмовляли вище вгору по ланцюгу, мали слабке розуміння тлумачення. Незважаючи на те, представлення результатів LHC було досить поганим, і насправді не було таким байєсським, як зазначають інші.

— Богдановіст

2

Я завжди думав, що зокрема фізика частинок також має справу з мільярдами подій, тому вам доведеться встановлювати планку дуже високо.

— Уейн

11

Історія та походження

$^{1}$ $^{2}$ $5\sigma$

$^3$ $4 \sigma$ $5\sigma$

$(K\pi\pi)_{3/2},(\pi \rho)^{--}$ $3\sigma$ $>4\sigma$

і пізніше в роботі (акцент мій)

$4\sigma$ $3\sigma$ $5\sigma$

Здається, Томмазо обережний, заявивши, що це почалося зі статті Розенфельда

Томмазо: "Однак слід зазначити, що стаття була написана в 1968 році, але суворий критерій п'яти стандартних відхилень для претензій на відкриття не був прийнятий у сімдесятих та вісімдесятих роках. Наприклад, не застосовувалося таке поняття, як критерій п'ятисигма. за відкриття бозонів W і Z, які отримали Руббію та Ван дер Меєру Нобелівську премію з фізики у 1984 році. "

$5\sigma$ $^4$

Шнайдер: "Часто" рівні довіри "95% або 99% цитуються за очевидно невідповідних даних, але це становить лише дві-три статистичні сигми. Мене вчили не вірити нічого менше, ніж п’ять сигм , що якщо ви думаєте про це - абсурдно сувора вимога - щось на зразок рівня довіри 99,9999%. Але, звичайно, застосовується така межа, оскільки фактичний розмір сигми майже ніколи не відомий. У астрономії є занадто багато вільних змінних, які ми можемо "не контролюю чи не знаю про це".

$4\sigma$ $5\sigma$ $^5$

Франклін: До 2003 року критерій 5-стандартного відхилення для "спостереження", здається, діяв

...

Член співпраці BaBar згадує, що приблизно цього разу критерій 5-сигми був виданий як настанова редакторами фізичних оглядів листів

Сучасне використання

$5\sigma$ $^6$ $^7$

$Z = 5$ $5\sigma$ $2.87 \times 10^{−7}$

$5\sigma$

$5\sigma$ $3\sigma$ $4\sigma$
$5\sigma$
$\sigma$ $\sigma$ $\sigma$ $6\sigma$
$5\sigma$

$5\sigma$ ${^{8,}}$ $^9$ $^{1}$ $^{2}$

Інші поля

Цікаво зауважити, що багато інших наукових галузей не мають подібних порогових значень, або якимось чином не займаються цим питанням. Я думаю, це має певний сенс у випадку експериментів з людьми, де дуже дорого (або неможливо) продовжити експеримент, який надавав значення .05 або .01.

$^{10}$ $^{11}$

Cousins, RD (2017). Парадокс Джефріса – Ліндлі та критерії відкриття у фізиці високих енергій. Синтез, 194 (2), 395–432. arxiv посилання
Доріго, Т. (2013) Демістифікація критерію п'яти знаків , від science20.com 2019-03-07
Розенфельд, AH (1968). Чи є якісь далекі мезони чи баріони? веб-джерело: ехоларство
Burbidge, G., Roberts, M., Schneider, S., Sharp, N., & Tifft, W. (1990, листопад). Панельне обговорення: Проблеми, пов'язані з повторним зміщенням. У публікації конференції NASA (т. 3098, с. 462). посилання на ксерокопію на harvard.edu
Франклін, А. (2013). Зсувні стандарти: Експерименти з фізики частинок у ХХ столітті. Університет Пітсбурзької преси.
Що означає 5 сигма? від physics.org 2019-03-07
Beringer, J., Arguin, JF, Barnett, RM, Copic, K., Dahl, O., Groom, DE, ... & Yao, WM (2012). Огляд фізики частинок. Фізичний огляд D-частинки, поля, гравітація та космологія, 86 (1), 010001. (розділ 36.2.2. Тести на значущість, стор. 394, посилання aps.org )
Ліонс, Л. (2013). Виявлення значущості 5 сигм. переддрук arXiv arXiv: 1310.1284. arxiv посилання
Ліонс, Л. (2014). Статистичні питання пошуків нової фізики. arXiv передрук arxiv посилання
Бейкер, М. (2015). Більше половини досліджень з психології провалили тест на відтворюваність. Новини природи. від nature.com 2019-03-07
Хортон, Р. (2015). Офлайн: що таке 5 сигма ліків? Ланцет, 385 (9976), 1380. з thelancet.com 2019-03-07

— Секст Емпірік
джерело

4

З причини, зовсім іншої, ніж фізика, є інші поля з набагато більш суворими альфами, коли вони беруть участь у тестуванні гіпотез. Генетична епідеміологія є серед них, особливо коли вони використовують "GWAS" (геномне дослідження асоціації) для пошуку різних генетичних маркерів захворювання.

Оскільки дослідження GWAS - це масивна вправа при тестуванні численних гіпотез, найсучасніші методи аналізу побудовані навколо набагато суворіших алфавітів, ніж 0,05. Інші такі методи «скринінгу кандидатів», які слідують після дослідження геноміки, ймовірно, зроблять те саме.

— Фоміт
джерело

2

Це лише крихітні місцеві

α

$\alpha$ с. У GWAS досі існує загальна помилка типу I у 5% за те, що заявляли про успіх, якого в реальності немає.

— Хорст Грюнбуш

3

Рівень настільки високий, щоб уникнути передчасних повідомлень про новини, які згодом виявляються хибними. Детальніше про це див

https://physics.stackexchange.com/questions/8752/standard-deviation-in-particle-physics?rq=1

https://physics.stackexchange.com/questions/31126/how-many-sigma-did-the-discovery-of-the-w-boson-have

— Арнольд Ноймаєр
джерело