Що таке філософія у вольтметрі?


15

Що таке філософія вольтметра та його варіацій? Ідея цього полягає в тому, що статистичний аналіз, який звертається до гіпотетичних подій, повинен був би бути переглянутий, якби згодом було зрозуміло, що ці гіпотетичні події не могли відбутися, як передбачалося.

Версія історії в Вікіпедії наводиться нижче.

Інженер малює випадковий зразок електронних трубок і вимірює їх напругу. Вимірювання коливаються від 75 до 99 вольт. Статистик обчислює середню вибірку та довірчий інтервал для справжнього середнього. Пізніше статистик виявляє, що вольтметр зчитує лише 100, тому популяція виявляється «цензурованою». Це вимагає нового аналізу, якщо статистик є ортодоксальним. Однак інженер каже, що у нього є ще один показник лічильника до 1000 вольт, який він би використав, якби якась напруга була понад 100. Це полегшення для статистиків, оскільки це означає, що чисельність населення була фактично без цензури. Але наступного дня інженер повідомляє статистику, що цей другий лічильник не працював на момент вимірювання. Статистик констатує, що інженер не проводив би вимірювання, поки вимірювач не був зафіксований, і повідомляє його про необхідність нових вимірювань. Інженер вражений. "Далі ви запитаєте про мій осцилограф".

Історія, очевидно, призначена для дурної, але мені незрозуміло, які свободи беруться за методологію, в якій вона викликає задоволення. Я впевнений, що в цьому випадку зайнятий прикладний статистик не буде хвилюватися з цього приводу, але як бути з хардкор-академічним філософією?

Чи потрібно, використовуючи догматичний частістський підхід, повторити експеримент? Чи можна зробити якісь висновки з уже наявних даних?

Для того, щоб також торкнутися більш загального пункту, викладеного в історії, якщо ми хочемо використати вже наявні у нас дані, чи міг би бути здійснений необхідний перегляд гіпотетичних результатів, щоб вписатись у частістські рамки?


4
Частіністський підхід також дозволяє обумовити, тому я не впевнений, що міркування, викладені в цитаті, цілком адекватні.
Сіань

@ Xi'an Навіть якщо ми включили цензуру зразка або ймовірність того, що другий вольтметр буде порушений у наших розрахунках, є питання, що ми змінюємо конструкцію експерименту після того, як він відбувся . Я не знаю, чи можна це примирити з частістськими методами.
Праксеоліт

6
Можливо, перевірте цей запис у Принципі умовності . Хоча я не частолюбиця, я не є великим прихильником цієї історії, тому що, здається, передбачає інтеграцію над усіма можливими гіпотетичними подіями, не визначаючи їх діапазон. Це досить карикатурно.
Сіань

5
Це дійсно гідне продуманого обговорення та відповідей. Але зауважте, що "якщо статистик є ортодоксальним" і не є некомпетентним чи жадібним до додаткової роботи, вона зазначить, що оскільки жодне з оригінальних спостережень не було цензуровано, її первісний вибір процедури (імовірно допустимого) залишається допустимим, і тому немає підстав для зміни це. Теоретична основа, яка лежить в основі статистики "частотних лікарів" - теорія рішень - не використовує цього "принципу ймовірності".
whuber

1
Я знаю, що я б робив, якщо є достатньо даних. Я зробив би гістограму. Я би подивився на гістограму. Якби в 99 момент було чіткою межею зробити однобічну укорочену гістограму, я б підозрював, що вона була усічена. Я також роздивився б дані, які не мають усікання, і перевіряю їх форми кривих, і бачу, чи можу я отримати ймовірнісну модель, щоб відповідати цьому, наприклад, гамма-розподілу, чи ні. Тоді я б повернувся до усічених даних (за припущенням) і побачив, чи все інше також розподілено гаммою (або будь-яким іншим). Тоді мені потрібно пояснити: "Чому гамма?" Якщо так, я закінчую.
Карл

Відповіді:


5

За допомогою частотистського висновку ми хочемо визначити, як часто щось траплялося б, якби певний стохастичний процес неодноразово реалізовувався. Це відправна точка для теорії p-значень, довірчих інтервалів тощо. Однак у багатьох прикладних проектах "заданий" процес насправді не дається, і статистик повинен виконати хоча б якусь роботу з його уточненням та моделюванням. Це може бути напрочуд неоднозначною проблемою, як і в цьому випадку.

Моделювання процесу генерації даних

Виходячи з наданої інформації, найкращим кандидатом виглядає наступний:

  1. Якщо лічильник 100 В зчитує 100 В, інженер повторно вимірює вимірювач 1000 В, якщо він працює. В іншому випадку він просто маркує 100 В і рухається далі.

Але це не трохи несправедливо до нашого інженера? Якщо припустити, що він інженер, а не просто технік, він, мабуть, розуміє, чому йому потрібно проводити повторні вимірювання, коли перший лічильник зчитує 100 В; це тому, що лічильник насичений на верхній межі свого діапазону, отже, вже не є надійним. Тож, можливо, те, що справді зробив би інженер

  1. Якщо вимірювач 100В зчитує 100, інженер повторно вимірює вимірювач 1000В, якщо він працює. В іншому випадку він просто позначає 100 В, додає знак плюс, щоб вказати на насичений вимір, і рухається далі.

Обидва ці процеси узгоджуються з даними, які ми маємо, але це різні процеси, і вони дають різні інтервали довіри. Процес 2 - це той, кого ми б вважали за краще статистами. Якщо напруги часто перевищують 100 В, процес 1 має потенційно катастрофічний режим відмови, в якому вимірювання періодично сильно занижуються, оскільки дані цензуруються, не знаючи про це. Інтервал довіри відповідно розшириться. Ми могли б пом'якшити це, попросивши інженера повідомити нам, коли його 1000В вимірювач не працює, але це справді лише інший спосіб забезпечення того, що наші дані відповідають Процесу 2.

Якщо кінь вже покинув сарай, і ми не можемо визначити, коли вимірювання проводяться і не підлягають цензурі, ми можемо спробувати зробити висновок із даних часу, коли вимірювач 1000 В не працює. Вводячи правило виводу в процес, ми ефективно створюємо новий Процес 1.5, відмінний від 1 і 2. Наше правило виводу іноді спрацьовує, а іноді ні, тому довірчий інтервал від Process 1.5 буде проміжним за розміром порівняно з Процесами 1 та 2.

Теоретично немає нічого поганого або підозрілого в єдиній статистиці, що має три різні інтервали довіри, пов'язані з трьома різними правдоподібно репрезентативними стохастичними процесами. На практиці мало хто з споживачів статистики хоче три різних інтервали довіри. Вони хочуть одного, такого, який базується на тому, що насправді сталося б, якби експеримент повторювався багато разів. Тому, як правило, прикладний статистик розглядає знання про домен, які вона здобула під час проекту, робить обґрунтовану здогадку та представляє інтервал довіри, пов'язаний з процесом, який він здогадався. Або вона працює з замовником, щоб формалізувати процес, тому не потрібно здогадуватися, що йде вперед.

Як реагувати на нову інформацію

Незважаючи на наполягання статистики в оповіданні, частість висновку не вимагає, щоб ми повторювали вимірювання, коли ми отримуємо нову інформацію, яка дозволяє припустити, що генеруючи стохастичний процес не зовсім те, що ми спочатку задумали. Однак якщо процес буде повторюватися, нам потрібно забезпечити, щоб усі повторення відповідали модельному процесу, прийнятому інтервалом довіри. Ми можемо це зробити, змінивши процес або змінивши нашу модель його.

Якщо ми змінимо процес, нам може знадобитися відкинути минулі дані, які були зібрані невідповідно з цим процесом. Але це не проблема, тому що всі розглянуті нами процеси відрізняються лише тоді, коли частина даних перевищує 100 В, а цього ніколи не бувало.

Що б ми не робили, модель та реальність повинні бути приведені у відповідність. Тільки тоді теоретично гарантований показник частої помилки стане тим, що клієнт насправді отримує при неодноразовому виконанні процесу.

Байєсська альтернатива

З іншого боку, якщо все, що нас насправді хвилює, - це ймовірний діапазон справжнього значення для цієї вибірки, ми повинні повністю відкинути частолізм і шукати людей, які продають відповідь на це питання - байесів. Якщо ми підемо цією трасою, усі торгування контрфактиками стають неактуальними; все, що має значення, - це пріоритет та ймовірність. В обмін на це спрощення ми втрачаємо будь-яку надію гарантувати рівень помилок при неодноразовому виконанні "експерименту".

Чому метушня?

Ця історія була побудована так, щоб стати схожим на те, що часто-часто статистик метушиться над дурними речами без причини. Чесно кажучи, хто піклується про ці дурні контрафакти? Відповідь, звичайно, полягає в тому, що всі повинні дбати. Надзвичайно важливі наукові галузі нині страждають від серйозної кризи реплікації , що дозволяє припустити, що частота помилкових відкриттів набагато вища, ніж очікувалося в науковій літературі. Одним із рушіїв цієї кризи, хоча і не єдиним , але є підйом p-хаккінгу , який відбувається, коли дослідники грають з багатьма варіаціями моделі, контролюючи різні змінні, поки вони не набувають значення.

P-хакерство широко зазнало жорстокості у популярних наукових засобах масової інформації та блогосфері, але мало хто насправді розуміє, що не так у p-хакерстві та чому. Всупереч поширеній статистичній думці, немає нічого поганого в тому, щоб переглянути ваші дані до, під час і після процесу моделювання. Що не так, не можна повідомити про дослідницькі аналізи та про те, як вони вплинули на хід дослідження. Лише переглядаючи повний процес, ми навіть можемо визначити, яка стохастична модель є репрезентативною для цього процесу та який частофілістський аналіз підходить для цієї моделі, якщо такий є.

Стверджувати, що певний частолістський аналіз є доцільним, є дуже серйозним твердженням. З цього позову ви розумієте, що ви зобов’язуєтесь до дисципліни обраного вами стохастичного процесу, що тягне за собою цілу систему контрфактів про те, що ви зробили б у різних ситуаціях. Ви повинні фактично відповідати цій системі, щоб часто застосовувати гарантію до вас. Дуже мало дослідників, особливо тих, хто наголошує на відкритому дослідженні, відповідають системі, і вони не повідомляють про свої відхилення скрупульозно; тому зараз у нас на руках криза реплікації. (Деякі шановні дослідники стверджують, що це очікування нереально, позиція, яку я співчуваю, але це виходить за межі цієї посади.)

Може здатися несправедливим, що ми критикуємо опубліковані статті на основі твердження про те, що вони зробили б, якби дані були іншими. Але це (дещо парадоксальний) характер частолістських міркувань: якщо ви приймаєте концепцію p-значення, ви повинні поважати законність моделювання того, що було б зроблено за альтернативними даними. (Gelman & Loken, 2013)

У дослідженнях, які відносно прості та / або стандартизовані, такі як клінічні випробування, ми можемо коригувати такі речі, як багаторазове чи послідовне порівняння, та підтримувати теоретичний рівень помилок; у більш складних та дослідницьких дослідженнях частофілістська модель може бути непридатною, оскільки дослідник може не бути повністю усвідомленим усіх прийнятих рішень , не кажучи вже про їх запис та подання. У таких випадках дослідник повинен (1) бути чесним і випереджаючим щодо того, що було зроблено; (2) представити значення p або з сильними застереженнями, або зовсім не; (3) розглянути можливість подання інших доказів, таких як попередня правдоподібність гіпотези або подальше дослідження реплікації.


Це виглядає як гарна відповідь, але мені потрібно подумки переварити його завтра.
Праксеоліт

за описом проблеми, як заявлено, це звучить так, ніби інженер стверджує, що він завжди робив ваш варіант №2
Аксакал

Можливо, але він не сказав так прямо. Великі помилки можуть бути зроблені, коли люди здогадуються, що думають інші люди, а не чітко обговорюють.
Пол

У курсах прикладної статистики занадто мало уваги приділяється формалізму того, що означає оцінювати параметри. Припустимо, ми плануємо кинути монету та записувати частоту головок. Увійшовши, ми мовчки припускаємо, що фактичний розподіл - це Бернуллі з р = q = 0,5. Після 1000 переворотів ми запитуємо себе "наскільки ймовірно, що це була справедлива монета", порівнюючи реальність з теорією / припущенням. Але в багатьох науках люди припускають, що речі звичайно розподіляються, а потім використовують t-тести. Але це безглуздо, якщо доходи нормально не розподіляються.
eSurfsnake

1

Здається, логічна помилка. Незалежно від того, працював чи ні 1000 вольтметр, інженер каже: "якби будь-які показання перевищували б 100, я би використав інший лічильник". Але як він знав, що напруга була> 100, не використовуючи вимірювач 1000 вольт?

Я не думаю, що ця головоломка сформульована достатньо, щоб поставити корисне філософське питання. Практично я погоджуюся з відповіддю, що правильно - зробити гістограму і побачити, чи вона виглядає усіченою.

Але, у будь-якому випадку, у питанні нічого не стосується питань, які мають значення, як-от: (1) що таке відомий (або підозрюваний) розподіл показань, і чому? Чи є якісь підстави вважати, що вони зазвичай розподіляються? (2) Якщо на це запитання не відповіли, то як коли-небудь оцінювали інтервал довіри?

Щоб довести його до крайності, вимірюється деяка «напруга». Припустимо, джерело живлення не може подавати більше 100 вольт. Чи було це правдою, імовірно, вимірювання не перевищували 100 вольт, тому вимірювач не має значення.

Існує ще ціла купа - з точки зору пріорів, обмежень тощо - що входить в оцінку та подібне, ніж охоплює питання. Це не схоже на парадокс "Monty Hall", який є чітким та чистим.


1
Суть історії полягає в критичному тлумаченні ймовірності, що спирається на гіпотетичні події, поширюючи ці інтерпретації до абсурдної крайності. Питання, про які ви згадуєте, стоять поруч. Нібито інженер міг би змінити вольтметри при необхідності (наприклад, бачить показання "100"), а статистик в іншому випадку має підстави використовувати підхід, який він використовує (наприклад, він просто так трапляється, що вже знає, що нормальний розподіл - це добре модель для цих показань).
Праксеоліт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.