Як обчислити довірчі інтервали для коефіцієнтів?


12

Розглянемо експеримент, який виводить співвідношення між 0 і 1. Отримання цього співвідношення не повинно бути доречним у цьому контексті. Це було розроблено в попередній версії цього питання , але для ясності було видалено після обговорення мета .Xi

Цей експеримент повторюється разів, тоді як n малий (приблизно 3-10). X_i передбачаються незалежними і однаково розподіленими. З них ми оцінюємо середнє значення, обчислюючи середнє \ перекреслення X , але як обчислити відповідний довірчий інтервал [U, V] ?n X i ¯ X [ U , V ]nnXiX¯[U,V]

Використовуючи стандартний підхід для обчислення довірчих інтервалів, V іноді перевищує 1. Однак моя інтуїція полягає в тому, що правильний довірчий інтервал ...

  1. ... має бути в межах 0 і 1
  2. ... має зменшуватися зі збільшенням n
  3. ... приблизно в порядку, розрахованому за стандартним підходом
  4. ... обчислюється математично обгрунтованим методом

Це не абсолютні вимоги, але я хоч хотів би зрозуміти, чому моя інтуїція неправильна.

Розрахунки на основі наявних відповідей

Далі інтервали довіри, отримані в результаті існуючих відповідей, порівнюються для \ {X_i \} = \ {0.985,0.986,0.935,0.890,0.999 \}{Xi}={0.985,0.986,0.935,0.890,0.999} .

Стандартний підхід (він же "Шкільна математика")

X¯=0.959 , σ2=0.0204 , таким чином, довірчий інтервал 99% дорівнює [0.865,1.053] . Це суперечить інтуїції 1.

Обрізка (запропонована @soakley в коментарях)

Просто використовувати стандартний підхід, а потім надати [0.865,1.000] як результат, це легко зробити. Але чи дозволено нам це робити? Я ще не впевнений, що нижня межа просто залишається постійною (-> 4.)

Модель логістичної регресії (запропонована @Rose Hartman)

Перетворені дані: Результат , перетворення його назад призводить до . Очевидно, що 6,90 є надмірним для трансформованих даних, тоді як 0,99 не для непереформованих даних, в результаті чого довірчий інтервал дуже великий. (-> 3.)[ 0.173 , 7.87 ] [ 0.543 , 0.999 ]{4.18,4.25,2.09,2.66,6.90}[0.173,7.87][0.543,0.999]

Довірчий інтервал двочленної пропорції (запропоновано @Tim)

Підхід виглядає досить непогано, але, на жаль, він не підходить для експерименту. Просто поєднання результатів та інтерпретація їх як одного великого повторного експерименту Бернуллі, як запропонував @ZahavaKor, призводить до наступного:

5 1000 [ 0.9511 , 0.9657 ] X i985+986+890+935+999=4795 із загалом. Подача цього в Adj. Калькулятор Wald дає . Це не здається реалістичним, тому що жоден знаходиться всередині цього інтервалу! (-> 3.)51000[0.9511,0.9657]Xi

Завантаження (запропоновано @soakley)

При маємо 3125 можливих перестановок. Беручи середніх засобів перестановок, отримуємо . Видать не що погано, хоча я б очікувати більший інтервал (-> 3). Однак він на конструкцію ніколи не перевищує . Таким чином, для малого зразка він швидше зростатиме, ніж скорочуватиметься для збільшення (-> 2.). Це принаймні те, що відбувається із наведеними вище зразками.3093n=5[0,91,0,99][min(Xi),max(Xi)]n30933125=0.99[0.91,0.99][min(Xi),max(Xi)]n


Ви правильні у своєму другому підході. Я не впевнений у першому - це статистично не зазначено чітко. Наскільки мені відомо, відтворюваність означає, що один і той же експеримент виконує інший дослідник, і вони отримують подібні результати. Вам потрібно чіткіше вказати свою мету, бажано з точки зору статистичної гіпотези щодо параметра, який ви намагаєтеся оцінити. Просто використання терміна "відтворюваність" на мою думку занадто розпливчасте.
Захава Кор

Ви праві, повторюваність - це правильний термін, а не відтворюваність. Я спробую побудувати визначення в статистичному плані.
коало

@ZahavaKor Я видалив не вказаний приклад щодо повторюваності та вказав свою фактичну заявку, сподіваючись, що вона прояснить мою проблему і не збиває з пантелику.
коало

Якщо ви справді берете зразки розміром 1000, ви неправильно застосували підхід перекомпонування. Але, маючи стільки даних, вам не потрібно перекомпонування та має отримати хороші результати (тобто вузькі інтервали довіри) за допомогою стандартного біноміального підходу, як ви виявили вище. Тільки тому, що ваші окремі точки даних не знаходяться в отриманому інтервалі, не означає, що інтервал є неправильним.
soakley

1
Ну, подумайте над цим. Ви пробите 10 предметів і отримуєте 9 успіхів. Я пробую 1000 і отримую 900 успіхів. Хто буде мати більш точну оцінку середнього? Спробуйте використовувати формулу, на яку посилається Тім, якщо інтуїції ще немає. Отже, в останньому прикладі вашого питання розмір вибірки не 5, а 5000!
soakley

Відповіді:


6

По-перше, для уточнення, що ви маєте справу з не зовсім біноміальним розподілом, як підказує ваше запитання (ви називаєте це експериментом Бернуллі). Біноміальні розподіли дискретні --- результат - або успіх, або невдача. Ваш результат - це співвідношення кожного разу, коли ви запускаєте експеримент , а не набір успіхів і невдач, на яких ви потім обчислюєте одне підсумкове співвідношення. Через це методи обчислення довірчого інтервалу біноміальної пропорції викинуть багато вашої інформації. І все-таки ви правильні, що ставитися до цього проблематично, як до нормального розподілу, тому що проблематично, оскільки ви можете отримати CI, що перевищує можливий діапазон вашої змінної.

Я рекомендую подумати про це з точки зору логістичної регресії. Запустіть логістичну регресійну модель зі змінною співвідношення як результат та без прогнозів. Перехоплення та його CI дасть вам те, що вам потрібно в logits, а потім ви зможете перетворити його на пропорції. Ви також можете просто зробити логістичне перетворення самостійно, обчислити CI, а потім перетворити назад у початкову шкалу. Мій пітон жахливий, але ось як ви могли це зробити в R:

set.seed(24601)
data <- rbeta(100, 10, 3)
hist(data)

гістограма необроблених даних

data_logits <- log(data/(1-data)) 
hist(data_logits)

гістограма перетворених даних Logit

# calculate CI for the transformed data
mean_logits <- mean(data_logits)
sd <- sd(data_logits)
n <- length(data_logits)
crit_t99 <- qt(.995, df = n-1) # for a CI99
ci_lo_logits <- mean_logits - crit_t * sd/sqrt(n)
ci_hi_logits <- mean_logits + crit_t * sd/sqrt(n)

# convert back to ratio
mean <- exp(mean_logits)/(1 + exp(mean_logits))
ci_lo <- exp(ci_lo_logits)/(1 + exp(ci_lo_logits))
ci_hi <- exp(ci_hi_logits)/(1 + exp(ci_hi_logits))

Ось нижня та верхня межі 99% ІС для цих даних:

> ci_lo
[1] 0.7738327
> ci_hi
[1] 0.8207924

Це звучить як хороший підхід, проте результати не такі, які я б очікував інтуїтивно: дані_логіти для 0,99,0,94,0,94 - 4,59,2,75,2,75, що дає інтервал довіри [-2,73,9,47]. Трансформація цієї спини дає [0,061,0,999] - набагато більше, ніж я б очікував.
коало

1
Всього за три спостереження слід очікувати дуже великого інтервалу довіри. З вашої гістограми виходить так, що у вас є набагато більше трьох спостережень --- Я припустив, що ваш приклад з 0,99,0,94,0,94 був просто для ілюстрації. Якщо ваш фактичний розмір вибірки становить три, я не рекомендую взагалі обчислювати довірчі інтервали (або значить, з цього приводу).
Роза Хартман

Наведена вище гістограма походить від сценарію python для ілюстрації моєї проблеми. Я не в змозі отримати стільки вимірювань від реального експерименту. Принаймні, не для кожної комбінації параметрів. Я погоджуюся, що 3 можуть бути занадто маленькими, і, можливо, приблизно 10 буде можливим в остаточній оцінці, але, звичайно, не набагато більше. То що мені робити з цим, щоб продемонструвати, що мені не просто пощастило отримати єдине вимірювання, але що повторення експерименту не дає зовсім інших результатів?
коало

@RoseHartman Це хороший чіткий опис, але було б також непогано побачити ваш метод, застосований до вибірки даних (n = 5) у питанні.
ПМ.

@scitamehtam Я написав свою відповідь, перш ніж koalo надав приклади даних та уточнив, що розмір вибірки буде 10 або менше спостережень. З тих пір koalo оновив оригінальне запитання, щоб включити відпрацьовані приклади кожного методу відповіді з даними n = 5, що дуже корисно
Роза Хартман

3

Ви можете спробувати перекомпонувати / завантажувати. Давайте розглянемо простий випадок, який ви згадали.

Маючи 3 точки даних 0,99, 0,94 та 0,94, ви навіть не будете робити перекомпонування, оскільки ви можете просто перерахувати всі 27 можливих перестановок, знайти середнє значення у кожному випадку та сортувати засоби.

Якщо ви створили список і взяли до середини 25 спостережень, у вас є довірчий інтервал 25/27 92,6% [0,9400, 0,9733]. Якщо ви хочете збільшити довіру до 26/27 96,3%, у вас є два однобічних варіанти інтервалів. Або [0,9400, 0,9733], або [0,94, 0,99].26 / 27 =25/27=26/27=

Я припускаю, що ваш буде набагато більшим, ніж 3, тому ви будете впорядковувати заміну. Скажіть, ви робите це 1000 разів. Потім знайдіть середнє значення у кожному випадку. З набору 1000 засобів візьміть середні значення 950. Найнижчі та найвищі значення цього підмножини утворюють довірчий інтервал 95%.n

Питання тут: як ми можемо створити довірчий інтервал для параметра тесту перестановки? дає більш детальну інформацію, включаючи деякий код R.


Як написано в іншому коментарі, n не буде "набагато більшим, ніж 3", але, можливо, n = 10 можливо при необхідності. Хоча такий підхід гарантує, що мій інтервал довіри не буде перевищувати 1,0, але, здається, значно недооцінюють довірчий інтервал, наданий іншими методами. Насправді він ніколи не буде більшим за [хв, макс] інтервал.
коало

Як часто, на вашу думку, середня буде поза [хв, макс]?
soakley

Можливо, рідко, але чи це також означає, що якщо інтервал [хв, макс] є досить малим, щоб підтвердити мої твердження, я можу забути про довірчий інтервал і просто надати [хв, макс]? На мій досвід, для невеликих розмірів вибірки довірчий інтервал досить великий порівняно з [хв, макс].
коало

2

Інтервали довірчих довірчих інтервалів вже давно були предметом дебатів статистиків. Ваша проблема вважає співвідношення менше 100%, але воно стає ще більш проблематичним, якщо ми використовуємо 100%. Один проникливий спосіб задати питання:

Зважаючи на те, що сонце сходило кожного дня за останні 2000 років, яка ймовірність того, що воно завтра зійде?

З таким високим рівнем успіху ми вважаємо, що шанси досить високі, але ми не можемо бути на 100% впевнені (Всесвіт може вибухнути першим чи щось). Тож, навіть якщо ви мали 100% -ну частку, ми не можемо дозволити інтервал довіри руйнуватися при .p=1

Існує ряд методів обчислення цих хвостів. Я рекомендую перевірити Вікіпедію на математику, або якщо ви просто хочете відповіді, знайдіть калькулятор біноміального інтервалу, як цей (який, можливо, має ще якесь пояснення математики).


Це дуже близько до того, що я шукаю, але, здається, формули лише обчислюють довірчий інтервал для результату одного циклу мого експерименту, а не довірчий інтервал для середнього кількох експериментів.
коало

Не має значення, чи є у вас один прогін або кілька прогонів, поки знаменник (100 пакетів у вашому прикладі) залишається однаковим у всіх прогонах. Запуск 3 експериментів по 100 кожен математично такий же, як виконання одного експерименту з 300 пакетами, і ви можете використовувати біноміальні формули, але з n = 300, а не n = 100. Якщо знаменники не дорівнюють, потрібно знайти середньозважене (зважене на n), а новий n буде сумою n.
Захава Кор

@ZahavaKor Оскільки коментар занадто довгий, я додав редагування до свого питання. Я не кажу, що це неправильно, але це не відповідає моєму теперішньому розумінню.
коало

2

Байєсівський підхід:

Знайдіть унікальний бета-розподіл , індукований експериментами (і попереднім, скажімо, попереднім Джефрісом), а потім виберіть найменший інтервал, за який щільність інтегрується до бажаної вами «впевненості». Можливо, що існує декілька рішень, і залежно від вашого попереднього значення середнє співвідношення може бути у вашому інтервалі.ВBB


+1, хоча це був би не довірчий інтервал, а достовірний інтервал. Чи можете ви сказати трохи більше про те, як знайти бета-розподіл? Можна почати з бета-версії до бета-версії (1,1), але як оновити її, враховуючи набір спостережень, наприклад {0,985,0,986,0,935,0,890,0,999}? Зазвичай Beta використовує як кон'югат до Binomial, і там оновлення для кожного спостережуваного є простим, але як оновити лише заданий ? пp=n/mp
амеба каже, що повернеться до Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.