Стаття про неправильне використання статистичного методу в NYTimes


20

Я маю на увазі цю статтю: http://www.nytimes.com/2011/01/11/science/11esp.html

Розглянемо наступний експеримент. Припустимо, було підстави вважати, що монета була трохи зваженою до голови. Під час випробування монета піднімає голови 527 разів із 1000.

Це вагомі докази того, що монета зважена?

Класичний аналіз говорить так. При справедливій монеті шанси отримати 527 і більше головок на 1000 фліп менше, ніж 1 на 20, або 5 відсотків, звичайний обріз. Інакше кажучи: в експерименті знайдено докази зваженої монети "з 95-відсотковою впевненістю".

Тим не менш, багато статистиків цього не купують. Кожен з 20 - це ймовірність отримати будь-яку кількість голов вище 526 за 1000 кидків. Тобто це сума ймовірності перегортання 527, ймовірності перегортання 528, 529 тощо.

Але експеримент не знайшов усіх чисел у цьому діапазоні; це виявило лише одне - 527. Отже, ці експерти вважають більш точним, щоб обчислити ймовірність отримання цього одного числа - 527 - якщо монета зважена, і порівняти її з ймовірністю отримання тієї ж кількості, якщо монета справедливий

По статистиці Пол Пол Спекман, який разом із психологом Джеффом Рудером наводив приклад, статистики можуть показати, що цей коефіцієнт не може бути вищим приблизно від 4 до 1.

Перше питання: Це для мене нове. Хтось має посилання, де я можу знайти точний розрахунок та / або чи можете ви мені допомогти, давши мені точний розрахунок самостійно та / або можете вказати мені на якийсь матеріал, де я можу знайти подібні приклади?

Байєс розробив спосіб оновити ймовірність гіпотези, коли з'являються нові докази.

Отже, оцінюючи силу даної знахідки, байєсовський (вимовляється BAYZ-ee-un) аналіз включає в себе відомі ймовірності, якщо вони є, поза межами дослідження.

Це може бути названо ефектом "так, правильно". Якщо дослідження виявить, що кумквати знижують ризик серцевих захворювань на 90 відсотків, що лікування виліковує алкогольну залежність за тиждень, що чутливі батьки вдвічі частіше народжують дівчинку, ніж хлопчика, Байєсська відповідь відповідає тому, що рідний скептик: Так, так. Висновки дослідження зважуються на те, що спостерігається у світі.

Принаймні в одній області медицини - діагностичні скринінг-тести - дослідники вже використовують відомі ймовірності для оцінки нових знахідок. Наприклад, новий тест на виявлення брехні може бути на 90 відсотків точним, правильно позначивши 9 з 10 брехунів. Але якщо його дати 100 чоловік, до яких уже відомо 10 брехунів, тест набагато менш вражаючий.

Він правильно визначає 9 з 10 брехунів і пропускає одного; але він неправильно ідентифікує 9 інших 90 як брехливих. Розділення так званих справжніх позитивних результатів (9) на загальну кількість людей, піддані тесту (18), дає точність 50 відсотків. "Неправдиві позитиви" та "помилкові негативи" залежать від відомих показників населення.

Друге питання: Як ви точно судите, чи є нова знахідка справжньою чи ні за допомогою цього методу? І: Хіба це не так довільно, як 5-бар'єрний бар'єр через використання певної попередньої ймовірності?


3
Для чесних і несправедливих монет це корисне прочитання: stat.columbia.edu/~gelman/research/publisher/diceRev2.pdf
mpiktas

Відповіді:


31

Я детально відповім на перше питання.

При справедливій монеті шанси отримати 527 і більше головок на 1000 фліп менше, ніж 1 на 20, або 5 відсотків, звичайний обріз.

Для справедливої ​​монети кількість голів у 1000 випробувань слід за біноміальним розподілом із кількістю випробувань та ймовірністю . Тоді ймовірність отримати більше 527 голівn=1000p=1/2

P(B(1000,1/2)>=527)

Це можна розрахувати з будь-яким статистичним програмним пакетом. R дає нам

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Тож ймовірність того, що за справедливу монету ми отримаємо понад 526 голів, приблизно 0,047, що близько 5% відсікання, зазначеного в статті.

Наступне твердження

Інакше кажучи: в експерименті знайдено докази зваженої монети "з 95-відсотковою впевненістю".

є дискусійним. Я б не хотів це сказати, оскільки 95% впевненість можна інтерпретувати декількома способами.

Далі ми переходимо до

Але експеримент не знайшов усіх чисел у цьому діапазоні; це виявило лише одне - 527. Отже, ці експерти вважають більш точним, щоб обчислити ймовірність отримання цього одного числа - 527 - якщо монета зважена, і порівняти її з ймовірністю отримання тієї ж кількості, якщо монета справедливий

Тут ми порівняємо дві події - справедлива монета, а - зважена монета. Підставляючи формули для ймовірності цих подій і зазначаючи, що біноміальний коефіцієнт скасовується, ми отримуємоB(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

Це функція , тому ми знаходимо мінімуми чи максимуми її. Зі статті ми можемо зробити висновок, що нам потрібні максимуми:p

По статистиці Пол Пол Спекман, який разом із психологом Джеффом Рудером наводив приклад, статистики можуть показати, що цей коефіцієнт не може бути вищим приблизно від 4 до 1.

Щоб полегшити максимізацію, візьміть логарифм відношення, обчисліть похідну відносно і прирівняйте її до нуля. Рішення будеp

p=5271000.

Ми можемо перевірити, чи справді це максимум, наприклад, використовуючи другий тест на похідні . Підставивши його до отриманої формули

(527/1000)527(473/1000)473(1/2)10004.3

Тож співвідношення 4,3 до 1, що узгоджується зі статтею.


"Тепер максимізуйте цю кількість щодо p": я думаю, ви маєте на увазі мінімізацію.
Саймон Бірн

@mpiktas (+1) Приємна (оновлена) відповідь.
chl

Я думаю, що цей приклад показує вам точно, що таке довірчий інтервал. Мені найпростіше інтерпретувати CI як ОДНЕ спостереження з розподіленої випадкової величини Бернулі з параметром ймовірності, рівним рівню достовірності. Мені має сенс використовувати CI лише тоді, коли ви проводите експеримент повторно. Інше питання полягає в тому, що таке альтернативна гіпотеза? це p = 7/10, p> 0,5, p = 1050/2000? р = 527/1000? Інше питання - що ми маємо на увазі під p = ? це ТОЧНО або це де - невелика кількість. 112 p(112ϵp(12±ϵ)ϵ
ймовірністьлогічний

@Simon, чому виправлення потрібно мінімізувати? Чи не знайдене значення Р максимізує співвідношення?

@statnovice: У початковій версії відповіді було змінено чисельник та знаменник.
Simon Byrne
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.