Чому ці твердження в середньому не випливають із 95% ІС?


26

Я читав доповідь Hoekstra et al за 2014 рік на тему "Надійна неправильна інтерпретація довірчих інтервалів", яку я завантажив із веб-сайту Wagenmakers .

На передостанній сторінці з’являється наступне зображення.

Вікторина

На думку авторів, False - правильна відповідь на всі ці твердження. Я не дуже впевнений, чому твердження неправдиві, і наскільки я можу сказати, решта статті не намагається пояснити це.

Я вважаю, що 1-2 і 4 не є правильними, оскільки вони щось стверджують про ймовірне значення справжнього середнього, коли справжня середина має певне значення, яке невідоме. Це переконлива відмінність?

Що стосується 3, я розумію, що не мається на увазі твердження про ймовірність того, що нульова гіпотеза є невірною, хоча я не настільки впевнений у тому, чому саме так.

Аналогічно 6 не може бути правдою, оскільки це означає, що справжня середина змінюється від експерименту до експерименту.

Той, кого я насправді взагалі не розумію, - це 5. Чому це неправильно? Якщо у мене є процес, який 95% часу виробляє ІС, які містять справжнє середнє значення, чому я не можу сказати, що я маю 95% впевненості, чисельність населення становить від 0,1 до 0,4? Це тому, що ми можемо мати якусь особливу інформацію про взятий нами зразок, який би змусив нас думати, що це, ймовірно, один із 5%, який не містить справжнього значення? Наприклад, 0,13 включається в інтервал довіри, і чомусь 0,13 не вважається правдоподібним значенням в якомусь конкретному контексті дослідження, наприклад, тому що це значення суперечить попередній теорії.

Що взагалі означає впевненість у цьому контексті?


Відповіді:


11

Саме значення питання (5) залежить від деякої нерозкритої інтерпретації "впевненості". Я ретельно шукав документ і не знайшов спроби визначити "впевненість" або що це може означати в цьому контексті. Пояснення статті у відповіді на питання (5) є

"... [він] згадує межі ІС, тоді як ... ІС можна використовувати для оцінки лише процедури, а не конкретного інтервалу."

Це і прискіпливо, і хибно. По-перше, якщо ви не можете оцінити результат процедури, то яка корисна в першу чергу процедура? По-друге, твердження у питанні не про процедуру, а про «впевненість» читача у її результатах.

Автори захищаються:

"Перш ніж продовжувати, важливо згадати правильне визначення CI. CI - це числовий інтервал, побудований навколо оцінки параметра. Такий інтервал, однак, не вказує безпосередньо на властивість параметра; натомість він вказує властивість процедури, як це характерно для частістської техніки ".

Їх упередженість з'являється в останній фразі: "частоталістична техніка" (написана, можливо, з неявним насмішкою). Хоча ця характеристика правильна, вона критично неповна. Він не помічає, що довірчий інтервал - це також властивість експериментальних методів (як були отримані та виміряні зразки) і, що ще важливіше, самої природи. Це єдина причина, чому хтось зацікавився би його цінністю.

Нещодавно мені було приємно читати кругову статистику з біології Едварда Батшелета (Academic Press, 1981). Батшелет пише чітко і чітко, в стилі, спрямованому на працюючого вченого. Ось що він говорить про довірчі інтервали:

" Оцінка параметра без вказівки на відхилення, спричинені випадковими коливаннями, має незначну наукову цінність. ...

"Тоді як параметр, що підлягає оцінці, є фіксованим числом, межі довіри визначаються вибіркою. Вони є статистикою і, отже, залежать від коливань випадків. Різні вибірки, взяті з однієї сукупності, призводять до різних довірчих інтервалів".

[Наголос в оригіналі, в стор 84-85.]

Зауважте різницю в акцентах: тоді як розглядається стаття присвячена процедурі, Batschelet зосереджується на вибірці та конкретно на тому, що може розкрити параметр і на скільки на цю інформацію можуть вплинути "коливання випадкових випадків". Я вважаю цей беззаперечно практичним науковий підхід набагато більш конструктивним, освітлюючим і - в кінцевому рахунку - корисним.

Тому більш повна характеристика довірчих інтервалів, ніж пропонується у статті, повинна мати щось подібне:

CI - числовий інтервал, побудований навколо оцінки параметра. Усі, хто погоджується з припущеннями, що лежать в основі побудови ІС, виправдані, сказавши, що вони впевнені, що параметр лежить в інтервалі: це значення "впевнено". Це значення в цілому узгоджується із загальноприйнятими нетехнічними значеннями впевненості, оскільки за багатьох реплік експерименту (незалежно від того, чи вони насправді мають місце) КІ, хоча і буде змінюватися, очікується, що він буде містити параметр більшу частину часу.

У цьому більш повному, більш звичному та більш конструктивному почутті "впевненості" відповідь на питання (5) правдива.


2
Примітно, що підхід Батшелета, як видається, виключає певні види довірчих інтервалів, які дають вдумливим читачам паузу, наприклад, CI, які можуть бути порожніми. Такий КІ ледве б зафіксував ідею "ознак відхилень, спричинених випадковими коливаннями". Це натякає на те, що, можливо, стандартне визначення інтервалу довіри не зовсім відповідає тому, що планується. Незважаючи на те, що за відсутності чітких вказівок про те, що означає "впевненість", йдеться у питанні (5), ми маємо скидати будь-які висновки, зроблені авторами на основі відповідей, які вони отримали на це питання.
whuber

уicауcгоду(мк,1)мк

... продовження ... тому, навіть якщо середньострокове охоплення досягається, охоплення в певному класі зразків не буде.
ймовірністьілогічний

10

Запитання 1-2, 4: у частотному аналізі справжня середня величина не є випадковою величиною, тому ймовірності не визначаються, тоді як у баєсовському аналізі ймовірності залежать від попереднього.

Питання 3: Наприклад, розглянемо випадок, коли ми точно знаємо, що все-таки можна було б отримати ці результати, але досить необґрунтовано сказати, що нульова гіпотеза "навряд чи" є істинною. Ми отримали дані, які навряд чи будуть мати місце, якщо нульова гіпотеза є істинною, але це не означає, що нульова гіпотеза навряд чи є істинною.

Питання 5: Це трохи сумнівно, оскільки це залежить від визначення поняття "ми можемо бути впевнені в%". Якщо ми визначимо твердження, що означає річ, яка виводиться з p% інтервалів довіри, це твердження за визначенням правильне. Типовий про-байесівський аргумент стверджує, що люди схильні інтерпретувати ці твердження інтуїтивно та означають "ймовірність p%", що було б помилковим (порівняйте відповіді на 1-2,4).

Питання 6: Ваше пояснення "випливає, що справжня середина змінюється від експерименту до експерименту" є абсолютно правильним.

Статтю нещодавно обговорювали в блозі Ендрю Гельмана ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ). Наприклад, питання щодо тлумачення твердження у питанні 5 обговорюється в коментарях.


1
Отже, якби повернутись і замінити кожен екземпляр "справжнього середнього" на "найкраща оцінка справжньої середньої", то чи стали б твердження правильними?
Супербест

@ Супербест. Ні. Якщо ми вважаємо "найкращу оцінку з урахуванням цих даних", це відома константа (за умови, що найкраща чітко визначена). Якщо ми вважаємо "найкращою оцінкою майбутнього зразка", ми не знаємо, як він змінюється, оскільки ми не знаємо справжнього значення.
Juho Kokkala

Це не зовсім спростування вищезазначеного коментаря, але я повинен зазначити, що справді "найкраща оцінка" передбачає фактичне число, а не розподіл. З ІС можна було б говорити про "розподіл того, де може лежати справжня середина, враховуючи ці дані".
Супербест

1
@Super Саме в цьому документі йдеться про непорозуміння ІП. Зокрема, справжня середня величина - це число ; воно не має розподілу. Дивіться перші два звернення в інтервалі пошуку довіри для подальшого обговорення.
whuber

1
@super, "достовірний інтервал" наблизиться.
whuber

8

Без формального визначення того, що означає бути "95% впевненим", яке виправдання для маркування №5 є правдивим чи неправдивим? Мирянин, без сумніву, неправильно трактує це як синонім 95% -ної ймовірності того, що середнє значення знаходиться в цьому інтервалі: але деякі люди використовують це в сенсі використання методу генерації інтервалів, інтервали якого містять справжнє середнє значення 95% часу, точно уникати розмови про розподіл ймовірності невідомого параметра; що здається досить природним розширенням термінології.

Подібна структура попереднього твердження (№4), можливо, спонукала б респондентів спробувати розрізнити "ми можемо бути 95% впевнені" & "є 95% вірогідність", навіть якщо вони раніше не розважали з цією ідеєю. Я очікував, що ця хитрість призведе до того, що №5 має найвищу частку за згодою - дивлячись на папір, я виявив, що я помиляюся, але зауважив, що принаймні 80% читали анкету в голландській версії, яка, можливо, може викликати питання про доречність англійського перекладу.


4

Ось визначення довірчого інтервалу зі статистичного словника BS Everitt :

"Діапазон значень, обчислений із вибіркових спостережень, які, як вважають, з певною вірогідністю містять справжнє значення параметра. Наприклад, 95% ДІ означає, що процес оцінки повторювався знову і знову, потім 95% з розрахункових інтервалів, як очікується, міститиме справжнє значення параметра. Зауважте, що зазначений рівень ймовірності відноситься до властивостей інтервалу, а не до самого параметра, який не вважається випадковою змінною "

Дуже поширене неправильне уявлення - плутати значення інтервалу довіри з значенням достовірного інтервалу , AKA "Байєсівський інтервал довіри", який робить висловлювання подібними до наведених у запитаннях.

Я чув, що довірчі інтервали часто подібні до достовірних інтервалів, які були отримані з неінформативної попередньої інформації, але про це мені сказали анекдотично (хоч і хлопець, якого я дуже поважаю), і в мене немає деталей або цитування.


Jaynes 1976 довірчі інтервали паперу та байесівські інтервали. Це хоча б одна надійна дура. Є також довідники Бергера та Бернардо. Серйозно, ви ніколи про них не чули?
ймовірністьлогічний

2

Щодо інтуїції щодо помилковості питання 5, я отримую наступне обговорення на цю тему звідси

Правильно сказати, що існує 95% шансів, що розрахований вами інтервал довіри містить справжнє середнє значення сукупності. Не зовсім коректно сказати, що існує 95% шансів, що середня кількість населення лежить у межах інтервалу.

Яка різниця? Середнє значення населення має одне значення. Ви не знаєте, що це таке (якщо ви не займаєтеся імітацією), але воно має одне значення. Якщо ви повторили експеримент, це значення не змінилося (і ви все одно не знаєте, що це таке). Тому не зовсім коректно запитувати про ймовірність того, що середня кількість населення лежить у певному діапазоні. На відміну від цього, інтервал довіри, який ви обчислюєте, залежить від даних, які ви збиралися збирати. Якби ви повторили експеримент, інтервал довіри майже напевно був би іншим. Тож добре запитати про ймовірність того, що інтервал містить середнє значення сукупності.

Тепер до ваших конкретних питань про 5. Чому це неправильно ...

  1. Це тому, що ми можемо мати якусь особливу інформацію про взятий нами зразок, який би змусив нас думати, що це, ймовірно, один із 5%, який не містить справжнього значення? Ні, скоріше, я думаю, це тому, що справжня середня величина не є випадковою змінною, але довірчий інтервал - це функція даних.
  2. 100(1-α)100(1-α)

Як бічна примітка (згадана в інших відповідях на це питання), достовірний інтервал , концепція статистики Байєса, передбачає, що справжнє значення параметра має особливу ймовірність опинитися в довірчому інтервалі з огляду на фактично отримані дані. Можливо, ви можете отримати більше інформації про це з блогу Gelman.


5
"Інтервал містить справжнє значення", а "справжнє значення лежить в інтервалі" означають абсолютно те саме. Це корисніше думати з точки зору першого, але насправді немає сенсу говорити, що одне є правильним, а друге - неправильним.
Девід Річербі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.