За допомогою частотистського висновку ми хочемо визначити, як часто щось траплялося б, якби певний стохастичний процес неодноразово реалізовувався. Це відправна точка для теорії p-значень, довірчих інтервалів тощо. Однак у багатьох прикладних проектах "заданий" процес насправді не дається, і статистик повинен виконати хоча б якусь роботу з його уточненням та моделюванням. Це може бути напрочуд неоднозначною проблемою, як і в цьому випадку.
Моделювання процесу генерації даних
Виходячи з наданої інформації, найкращим кандидатом виглядає наступний:
- Якщо лічильник 100 В зчитує 100 В, інженер повторно вимірює вимірювач 1000 В, якщо він працює. В іншому випадку він просто маркує 100 В і рухається далі.
Але це не трохи несправедливо до нашого інженера? Якщо припустити, що він інженер, а не просто технік, він, мабуть, розуміє, чому йому потрібно проводити повторні вимірювання, коли перший лічильник зчитує 100 В; це тому, що лічильник насичений на верхній межі свого діапазону, отже, вже не є надійним. Тож, можливо, те, що справді зробив би інженер
- Якщо вимірювач 100В зчитує 100, інженер повторно вимірює вимірювач 1000В, якщо він працює. В іншому випадку він просто позначає 100 В, додає знак плюс, щоб вказати на насичений вимір, і рухається далі.
Обидва ці процеси узгоджуються з даними, які ми маємо, але це різні процеси, і вони дають різні інтервали довіри. Процес 2 - це той, кого ми б вважали за краще статистами. Якщо напруги часто перевищують 100 В, процес 1 має потенційно катастрофічний режим відмови, в якому вимірювання періодично сильно занижуються, оскільки дані цензуруються, не знаючи про це. Інтервал довіри відповідно розшириться. Ми могли б пом'якшити це, попросивши інженера повідомити нам, коли його 1000В вимірювач не працює, але це справді лише інший спосіб забезпечення того, що наші дані відповідають Процесу 2.
Якщо кінь вже покинув сарай, і ми не можемо визначити, коли вимірювання проводяться і не підлягають цензурі, ми можемо спробувати зробити висновок із даних часу, коли вимірювач 1000 В не працює. Вводячи правило виводу в процес, ми ефективно створюємо новий Процес 1.5, відмінний від 1 і 2. Наше правило виводу іноді спрацьовує, а іноді ні, тому довірчий інтервал від Process 1.5 буде проміжним за розміром порівняно з Процесами 1 та 2.
Теоретично немає нічого поганого або підозрілого в єдиній статистиці, що має три різні інтервали довіри, пов'язані з трьома різними правдоподібно репрезентативними стохастичними процесами. На практиці мало хто з споживачів статистики хоче три різних інтервали довіри. Вони хочуть одного, такого, який базується на тому, що насправді сталося б, якби експеримент повторювався багато разів. Тому, як правило, прикладний статистик розглядає знання про домен, які вона здобула під час проекту, робить обґрунтовану здогадку та представляє інтервал довіри, пов'язаний з процесом, який він здогадався. Або вона працює з замовником, щоб формалізувати процес, тому не потрібно здогадуватися, що йде вперед.
Як реагувати на нову інформацію
Незважаючи на наполягання статистики в оповіданні, частість висновку не вимагає, щоб ми повторювали вимірювання, коли ми отримуємо нову інформацію, яка дозволяє припустити, що генеруючи стохастичний процес не зовсім те, що ми спочатку задумали. Однак якщо процес буде повторюватися, нам потрібно забезпечити, щоб усі повторення відповідали модельному процесу, прийнятому інтервалом довіри. Ми можемо це зробити, змінивши процес або змінивши нашу модель його.
Якщо ми змінимо процес, нам може знадобитися відкинути минулі дані, які були зібрані невідповідно з цим процесом. Але це не проблема, тому що всі розглянуті нами процеси відрізняються лише тоді, коли частина даних перевищує 100 В, а цього ніколи не бувало.
Що б ми не робили, модель та реальність повинні бути приведені у відповідність. Тільки тоді теоретично гарантований показник частої помилки стане тим, що клієнт насправді отримує при неодноразовому виконанні процесу.
Байєсська альтернатива
З іншого боку, якщо все, що нас насправді хвилює, - це ймовірний діапазон справжнього значення для цієї вибірки, ми повинні повністю відкинути частолізм і шукати людей, які продають відповідь на це питання - байесів. Якщо ми підемо цією трасою, усі торгування контрфактиками стають неактуальними; все, що має значення, - це пріоритет та ймовірність. В обмін на це спрощення ми втрачаємо будь-яку надію гарантувати рівень помилок при неодноразовому виконанні "експерименту".
Чому метушня?
Ця історія була побудована так, щоб стати схожим на те, що часто-часто статистик метушиться над дурними речами без причини. Чесно кажучи, хто піклується про ці дурні контрафакти? Відповідь, звичайно, полягає в тому, що всі повинні дбати. Надзвичайно важливі наукові галузі нині страждають від серйозної кризи реплікації , що дозволяє припустити, що частота помилкових відкриттів набагато вища, ніж очікувалося в науковій літературі. Одним із рушіїв цієї кризи, хоча і не єдиним , але є підйом p-хаккінгу , який відбувається, коли дослідники грають з багатьма варіаціями моделі, контролюючи різні змінні, поки вони не набувають значення.
P-хакерство широко зазнало жорстокості у популярних наукових засобах масової інформації та блогосфері, але мало хто насправді розуміє, що не так у p-хакерстві та чому. Всупереч поширеній статистичній думці, немає нічого поганого в тому, щоб переглянути ваші дані до, під час і після процесу моделювання. Що не так, не можна повідомити про дослідницькі аналізи та про те, як вони вплинули на хід дослідження. Лише переглядаючи повний процес, ми навіть можемо визначити, яка стохастична модель є репрезентативною для цього процесу та який частофілістський аналіз підходить для цієї моделі, якщо такий є.
Стверджувати, що певний частолістський аналіз є доцільним, є дуже серйозним твердженням. З цього позову ви розумієте, що ви зобов’язуєтесь до дисципліни обраного вами стохастичного процесу, що тягне за собою цілу систему контрфактів про те, що ви зробили б у різних ситуаціях. Ви повинні фактично відповідати цій системі, щоб часто застосовувати гарантію до вас. Дуже мало дослідників, особливо тих, хто наголошує на відкритому дослідженні, відповідають системі, і вони не повідомляють про свої відхилення скрупульозно; тому зараз у нас на руках криза реплікації. (Деякі шановні дослідники стверджують, що це очікування нереально, позиція, яку я співчуваю, але це виходить за межі цієї посади.)
Може здатися несправедливим, що ми критикуємо опубліковані статті на основі твердження про те, що вони зробили б, якби дані були іншими. Але це (дещо парадоксальний) характер частолістських міркувань: якщо ви приймаєте концепцію p-значення, ви повинні поважати законність моделювання того, що було б зроблено за альтернативними даними. (Gelman & Loken, 2013)
У дослідженнях, які відносно прості та / або стандартизовані, такі як клінічні випробування, ми можемо коригувати такі речі, як багаторазове чи послідовне порівняння, та підтримувати теоретичний рівень помилок; у більш складних та дослідницьких дослідженнях частофілістська модель може бути непридатною, оскільки дослідник може не бути повністю усвідомленим усіх прийнятих рішень , не кажучи вже про їх запис та подання. У таких випадках дослідник повинен (1) бути чесним і випереджаючим щодо того, що було зроблено; (2) представити значення p або з сильними застереженнями, або зовсім не; (3) розглянути можливість подання інших доказів, таких як попередня правдоподібність гіпотези або подальше дослідження реплікації.