Яке значення має довірчий інтервал, узятий із завантажених повторних копій?


38

Я переглядав численні запитання на цьому сайті щодо завантажувальних і довірчих інтервалів, але я все ще плутаюся. Частина причини моєї плутанини, мабуть, у тому, що я недостатньо просунувся у своїх знаннях статистики, щоб зрозуміти багато відповідей. Я приблизно на півдорозі вступного курсу статистики, і мій рівень математики - це лише про середину Алгебри II, тому все, що минуло цей рівень, мене просто бентежить. Якби хтось із знаючих на цьому сайті міг пояснити це питання на моєму рівні, це було б дуже корисно.

Ми вчилися в класі, як приймати повторні зразки, використовуючи метод bootstrap, і використовувати їх для створення інтервалу довіри для певної статистики, яку ми хотіли б виміряти. Наприклад, скажімо, ми беремо вибірку з великої кількості населення і виявляємо, що 40% кажуть, що вони будуть голосувати за кандидата А. Ми припускаємо, що цей зразок є досить точним відображенням вихідної сукупності, і в цьому випадку ми можемо взяти повторні зразки у це відкрити щось про населення. Таким чином, ми беремо повторні зразки і виявляємо (використовуючи 95% рівень довіри), що отриманий довірчий інтервал становить від 35% до 45%.

Моє запитання: що насправді означає цей інтервал довіри ?

Я продовжую читати, що є різниця між інтервалом (частою) впевненості та достовірними інтервалами (байесівською). Якщо я правильно зрозумів, то ймовірний інтервал б сказати , що є 95% вірогідність того, що в нашій ситуації істинний параметр знаходиться в межах заданого інтервалу (35% -45%), в той час як довірчий інтервал буде сказати , що є 95% , що в цьому тип ситуації (але не обов'язково конкретно в нашій ситуації) метод, який ми використовуємо, точно би повідомив, що справжній параметр знаходиться в заданому інтервалі.

Якщо припустити, що це визначення є правильним, моє запитання таке: про який "істинний параметр" йдеться, коли ми використовуємо інтервали довіри, побудовані за допомогою методу завантаження? Чи маємо на увазі (а) істинний параметр вихідної сукупності , або (б) істинний параметр вибірки ? Якщо (а), то ми б сказали, що 95% часу метод завантаження буде точно повідомляти правдиві твердження про вихідну сукупність. Але як ми могли це знати? Чи не весь метод завантажувального механізму не спирається на припущеннящо оригінальний зразок - це точне відображення сукупності, з якої він був узятий? Якщо (б), то я взагалі не розумію значення інтервалу довіри. Хіба ми вже не знаємо справжнього параметра вибірки? Це відверте вимірювання!

Я обговорював це з моїм викладачем, і вона була дуже корисною. Але я все одно розгублений.

Відповіді:


28

Якщо процедура завантаження та формування довірчого інтервалу були виконані правильно, це означає те саме, що і будь-який інший довірчий інтервал. З точки зору частості, 95% ІС означає, що якщо все дослідження повториться однаково ad infinitum , 95% таких довірчих інтервалів, сформованих таким чином, включатимуть справжнє значення. Звичайно, у вашому дослідженні або в будь-якому окремому дослідженні інтервал довіри або буде містити справжнє значення, або ні, але ви не знаєте, яке. Щоб зрозуміти ці ідеї далі, може допомогти вам прочитати мою відповідь тут: Чому інтервал довіри 95% (CI) не передбачає 95% шансу утримувати середину?

Що стосується ваших подальших питань, "справжнє значення" стосується фактичного параметра відповідної сукупності. (Зразки не мають параметрів, вони мають статистику ; наприклад, середнє значення вибірки, , є вибірковою статистикою, але середнє значення сукупності, , є параметром сукупності.) Щодо того, як ми це знаємо, на практиці ми цього не робимо. Ви праві, що ми покладаємось на деякі припущення - ми завжди є. Якщо ці припущення є правильними, можна довести, що властивості зберігаються. Це було суть роботи Ефрона ще в кінці 1970-х на початку 1980-х, але математиці важко дотримуватися більшості людей. Дещо математичне пояснення завантажувальної програми див. У відповіді @ StasK тут: Пояснення користувачам, чому працює завантажувальна програма μх¯мк. Для швидкої демонстрації математики розгляньте наступне моделювання за допомогою R:

# a function to perform bootstrapping
boot.mean.sampling.distribution = function(raw.data, B=1000){
  # this function will take 1,000 (by default) bootsamples calculate the mean of 
  # each one, store it, & return the bootstrapped sampling distribution of the mean

  boot.dist = vector(length=B)     # this will store the means
  N         = length(raw.data)     # this is the N from your data
  for(i in 1:B){
    boot.sample  = sample(x=raw.data, size=N, replace=TRUE)
    boot.dist[i] = mean(boot.sample)
  }
  boot.dist = sort(boot.dist)
  return(boot.dist)
}

# simulate bootstrapped CI from a population w/ true mean = 0 on each pass through
# the loop, we will get a sample of data from the population, get the bootstrapped 
# sampling distribution of the mean, & see if the population mean is included in the
# 95% confidence interval implied by that sampling distribution

set.seed(00)                       # this makes the simulation reproducible
includes = vector(length=1000)     # this will store our results
for(i in 1:1000){
  sim.data    = rnorm(100, mean=0, sd=1)
  boot.dist   = boot.mean.sampling.distribution(raw.data=sim.data)
  includes[i] = boot.dist[25]<0 & 0<boot.dist[976]
}
mean(includes)     # this tells us the % of CIs that included the true mean
[1] 0.952

На які саме припущення ми покладаємось?
iarwain

2
Спасибі. Я думаю, що я знайшов те, що шукав, у другій відповіді на цю тему: "Пам'ятайте, що ми не використовуємо засоби зразків завантажувальної машини для оцінки середньої сукупності, ми використовуємо для цього вибіркове значення (або будь-яку статистику, що представляє інтерес Ми використовуємо зразки завантажувальної програми для оцінки властивостей (розповсюдження, зміщення) процесу відбору проб. І за допомогою вибірки з групи знань (що, ми сподіваємось, є представником зацікавленої сукупності), щоб дізнатися про ефекти вибірки має сенс і набагато менш кругла ». ...
iarwain

1
... Іншими словами, все, що говорить нам, говорить про те, що в групі, приблизно подібній до нашої, ми очікуємо, що 95% зразків, взятих з цієї сукупності, відображають справжнє значення +/- похибка. Отже, все, що ми робимо, - це дуже груба підказка - хоча це, мабуть, найкраща підказка - про те, наскільки наближена наша вибіркова статистика до справжнього параметра сукупності. Якщо так, то це звучить так, що ми не повинні сприймати точні цифри в CI занадто серйозно - вони просто означають щось на кшталт "статистична вибірка, мабуть, приблизно точна, ймовірно, приблизно така ступінь". Я правильно зрозумів?
iarwain

1
Це по суті правильно. CI дає нам відчуття точності нашої оцінки, але ми ніколи не знаємо, чи справжня (реалізована) CI містить справжнє значення. Основне припущення полягає в тому, що наші дані є репрезентативною для населення, яке цікавить. Зауважте, що жодне з них не є специфічним для завантажувальних ІС, у вас є однакове тлумачення та припущення в ІС, обчислене за допомогою асимптотичної теорії.
gung - Відновіть Моніку

1
Це відмінне пояснення. Додам лише, що "справжня цінність" часом є артефактом дизайну дослідження. При опитуванні політичних кандидатів стратифіковані вибірки дають набагато точніші та достовірніші оцінки, ніж випадкова вибірка. Вартість - це ризик переоцінки неправильної групи за конструкцією. У цьому випадку 95% ІС зосереджено на правильному значенні, такому, яке досягається шляхом тиражування дослідження ad infinitum , але це значення не є іншим сенсом справжнього параметра: параметр, який ми хотіли оцінити. Ось чому дизайн дослідження та умовиводів суттєво пов'язані.
АдамО

0

Що ви говорите, це те, що не потрібно шукати інтервал довіри у завантажених повторних копій. Якщо вас влаштовує статистика (середня вибірка або вибіркова пропорція), отримана з завантажених повторних проб, не знаходите жодного інтервалу довіри і так, жодного питання про тлумачення. Але якщо ви не задоволені статистикою, отриманою з завантажених повторних копій або задоволеною, але все ж хочете знайти довірчий інтервал, то інтерпретація такого довірчого інтервалу така ж, як і для будь-якого іншого довірчого інтервалу. Це тому, що коли ваші завантажені повторні копії точно представляють (або вважається таким) первісну сукупність, тоді де необхідний інтервал довіри? Статистика з завантажених повторних проб є початковим параметром сукупності, але коли ви не розглядаєте статистику як вихідний параметр сукупності, тоді необхідно знайти інтервал довіри. Отже, справа в тому, як ви вважаєте. Скажімо, ви обчислили 95% довірчий інтервал від завантажених повторних копій. Зараз інтерпретація така: "95% разів цей метод завантаження точно призводить до довірчого інтервалу, що містить справжній параметр сукупності".

(Це я думаю. Виправте мене, якщо є помилки).


-1

Ми маємо на увазі справжній параметр вихідної сукупності. Це можна зробити за умови, що дані були виведені випадковим чином з вихідної сукупності - у цьому випадку є математичні аргументи, які показують, що процедури завантаження дають дійсний довірчий інтервал, принаймні, оскільки розмір набору даних стає досить великим .


Так це звучить як для того, щоб зрозуміти, чому це працює, мені потрібно знати достатню математику, щоб наслідувати математичні докази. Це правильно?
iarwain

Я так думаю (я не знайомий з доказами)
Гарет

Однак, інтуїтивно видно, що коли розмір вибірки стає більшим, вибірка починає виглядати дуже схоже на сукупність. Наприклад, скажіть, що я беру 1 мільйон проб із звичайного розподілу із заданим середнім значенням та дисперсією. Назвіть цей зразок X. Випадковий зразок (із заміною), узятий із X, схожий на випадковий зразок, узятий з оригінального розподілу. Я думаю, що це основна ідея, чому це працює.
Гарет
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.