Чи можна розглядати завантажувальний засіб як «ліки» для невеликого розміру зразка?

71

Це питання було викликане чимось, що я читав у цьому підручнику зі статистики випускників, а також (незалежно), почутий під час цієї презентації на статистичному семінарі. В обох випадках заява проходила по лінії "оскільки розмір вибірки досить малий, ми вирішили виконати оцінку за допомогою завантажувальної програми замість (або поряд з цим параметричним методом "). $X$

Вони не вдаватися в подробиці, але , ймовірно, міркували наступним чином : метод приймає дані випливають певної параметричне розподіл . Насправді розподіл не зовсім , але це нормально, якщо розмір вибірки досить великий. Оскільки в цьому випадку розмір вибірки занадто малий, перейдемо до (непараметричного) завантажувального пристрою, який не робить жодних припущень щодо розподілу. Проблема вирішена! $X$ $D$ $D$

На мою думку, це не те, для чого завантажувач. Ось як я це бачу: bootstrap може дати перевагу, коли більш-менш очевидно, що є достатньо даних, але немає закритого рішення для отримання стандартних помилок, p-значень та подібних статистичних даних. Класичним прикладом є отримання КІ для коефіцієнта кореляції, заданого зразком з нормального розподілу біваріанта: рішення закритої форми існує, але воно настільки вивернуте, що завантажувальна програма простіша. Однак, ніщо не означає, що завантажувальна програма може якось допомогти людині відійти від невеликого розміру вибірки.

Чи правильно моє сприйняття?

Якщо ви вважаєте це питання цікавим, є ще одне, більш конкретне питання завантаження:

Завантажувальний інструмент: питання оздоблення

PS Я не можу не поділитися одним кричущим прикладом "підходу до завантаження". Я не розголошую ім'я автора, але він є одним із "квінтів" старшого покоління, який написав книгу про кількісні фінанси у 2004 році. Приклад взятий звідти.

Розглянемо наступну проблему: припустимо, у вас є 4 активи та 120 щомісячних спостережень за поверненнями для кожного. Мета - побудувати спільний 4-мірний cdf річних доходів. Навіть для одного активу це завдання виявляється важко досяжним лише з 10-річними спостереженнями, не кажучи вже про оцінку 4-мірного cdf. Але не хвилюйтесь, «завантажувальний пристрій» допоможе вам: взяти всі наявні 4-мірні спостереження, перепробовувати 12 із заміною та скласти їх для побудови єдиного «завантаженого» 4-мірного вектору річної віддачі. Повторіть це 1000 разів, і ось, ви отримали собі "зразок завантаження" з 1000 річних доходів. Використовуйте це як зразок iid з розміром 1000 для оцінки PDF або будь-якого іншого висновку, який можна отримати з тисячорічної історії.

bootstrap small-sample

— Джеймс
джерело

18

Я чую чи читаю подібні настрої до вашого першого абзацу, але, як правило, не погоджуюся. Зазвичай я не вважаю, що завантажувальна програма є обов'язково корисною для невеликих зразків. Його обґрунтування є асимптотичним / великим зразком, і в багатьох випадках на практиці його невеликі показники вибірки є проблематичними; Наприклад, покриття інтервалів часто сильно відрізняється від номінальної ставки. Це ще один корисний інструмент, але, як і багато інших, що прозвучали впродовж багатьох років, це не панацея, яку деякі уявляють. Я дійсно не думаю, що це рішення дуже малих зразків.

— Glen_b

У Саймона Sheather в книзі (рис 3,40) є блок - схема для регресії , що говорить про початкового завантаження для виведення , коли розмір вибірки не є великим , і помилки не нормально розподілені.

— Тоні Лідсон

2

Відповідь на запитання в четвертому пункті - так (або, принаймні, ви отримаєте кредит за свій аргумент, якби ви дали цю відповідь на тесті в моєму класі). Ви перевірили цю дискусію ? У своїй відповіді я дав пояснення наближень, які робить завантажувальний засіб, і посилався на папір, який повинен читати, про що повинен читати кожен завантажувач, щоб знати про обмеження методу. Було б добре побачити посилання на книги / статті / презентації, які викликали ваше запитання

— StasK

Хіба завантажувальна програма просто не дає вам додатковий термін у розширенні крайового рівня - як звичайне наближення із терміном корекції?

— ймовірністьлогічний

34

Я пам’ятаю, що читав, що використання довірчого інтервалу довільної передачі для завантаження рівносильно використанню інтервалу Z замість інтервалу Т та використання замість для знаменника. На жаль, я не пам’ятаю, де я це читав, і не міг знайти посилання у своїх швидких пошуках. Ці відмінності не мають великого значення, коли n великий (і переваги завантажувальної машини переважають ці незначні проблеми, коли великий), але при малому це може спричинити проблеми. Ось декілька код R для імітації та порівняння: $n$ $n-1$ $n$ $n$

simfun <- function(n=5) {
    x <- rnorm(n)
    m.x <- mean(x)
    s.x <- sd(x)
    z <- m.x/(1/sqrt(n))
    t <- m.x/(s.x/sqrt(n))
    b <- replicate(10000, mean(sample(x, replace=TRUE)))
    c( t=abs(t) > qt(0.975,n-1), z=abs(z) > qnorm(0.975),
        z2 = abs(t) > qnorm(0.975), 
        b= (0 < quantile(b, 0.025)) | (0 > quantile(b, 0.975))
     )
}

out <- replicate(10000, simfun())
rowMeans(out)

Мої результати за один пробіг:

     t      z     z2 b.2.5% 
0.0486 0.0493 0.1199 0.1631

Отже, ми можемо бачити, що за допомогою t-тесту та z-тесту (із справжнім стандартним відхиленням популяції) обидва дають рівень помилок типу I, який по суті є як було розроблено. Неправильний тест z (ділиться на стандартне відхилення вибірки, але використовуючи критичне значення Z замість T) відхиляє нуль більш ніж удвічі частіше, ніж слід. Тепер до завантажувального пристрою він відхиляє нуль у 3 рази частіше, ніж це слід (дивлячись, якщо 0, справжня середня величина, знаходиться в інтервалі чи ні), тому для цього невеликого розміру вибірки простий завантажувальний засіб не розміщений належним чином і тому не виправляти проблеми (і це коли дані оптимально нормальні). Покращені інтервали завантаження (BCa тощо), ймовірно, стануть кращими, але це повинно викликати певне занепокоєння щодо використання завантажувальної програми як панацеї для невеликих розмірів вибірки. $\alpha$

— Грег Сніг
джерело

6

Ваше останнє речення викликало у мене цікавість, тому я спробував це на вашому прикладі. Я використовував bootпакет і мав він забезпечити всі можливі інтервали: нормальний інтервал наближення першого порядку, основний інтервал завантаження, ступінчастий інтервал завантаження, інтервал завантажувального перцентиля (який вже надає ваш код) і відрегульований завантажувальний перцентил (BCa) інтервал. Результати були, по суті, однаковими (коефіцієнти відхилення близько .16 -17. 17), за винятком студійного інтервалу, який мав номінальну (.05) швидкість відхилення (що має сенс, оскільки він більше схожий на стандартний t-тест).

— Вольфганг

2

@Wolfgang, дякую за додаткові симуляції. Я трохи здивований, що інші інтервали не стали трохи кращими, але не здивовані тим, що вони не відповідали рівню 0,05.

— Грег Сног

1

Так, і я трохи здивувався! Іноді наша інтуїція провалюється. Ось чому так чудово, що можна за кілька хвилин написати невеликий сценарій в R, запустити його 10,000 \times 10,000ітерації (на це знадобиться ще пара хвилин) і бути в змозі перевірити речі. І ваш приклад чудово показує, що завантажувальна програма може працювати досить погано з невеликими зразками, навіть коли речі "приємні" (тобто дані насправді є нормальними).

— Вольфганг

Власне, проблема, що спостерігається в цьому моделюванні, є саме тією проблемою, про яку я щойно запитав тут і відповів у коментарях @whuber: stats.stackexchange.com/questions/323455/… . Отже, я не думаю, що проблема полягає в розмірі вибірки, а в порушенні незалежності параметричного висновку в межах кожного зразка.

— півзахист

2

Ваш коментар щодо процентного довірчого інтервалу, еквівалентного використанню замість , звідси , просто для запису.

z

$z$

t

$t$

— Daeyoung Lim

14

Якщо вам забезпечений невеликий розмір вибірки (як бічне світло, схоже, те, що "мале", залежить від деяких звичних правил у кожній галузі дослідження), жодна завантажувальна програма не зробить магію. Якщо припустити, що база даних містить три спостереження за кожною з двох змінних, що досліджуються, жоден висновок не матиме сенсу. На мій досвід, непараметрична завантажувальна програма (1000 або 10 000 реплікацій) добре працює в заміні t-тесту, коли розподільні зразки (щонайменше 10-15 спостережень у кожному) перекошені, і тому умови для звичайного t-тесту не виконуються. Крім того, незалежно від кількості спостережень, непараметрична завантажувальна програма може бути обов'язковим вибором, коли дані є позитивно перекошеними, як це завжди відбувається за витрати на охорону здоров'я.

— Карло Лаццаро
джерело

1

завантажувальний інструмент може бути обов'язковим вибором, коли дані позитивно перекошені - чому б замість цього не використовувати логічний або подібний косий розподіл? SAS і R мають багато варіантів.

— Джеймс

1

Відповідь Джеймса заслуговує на розгляд. Однак звичайною проблемою, з якою я стикаюсь із реєстрацією даних про витрати, є зворотне перетворення на початковий показник перед тим, як представити результати керівникам, які приймають рішення. Ви можете уникнути цієї проблеми за допомогою непараметричної завантажувальної програми.

— Карло Лаццаро

Карло, оскільки у вас є досвід перетворення журналу, ви можете відповісти на ще одне моє питання (є баунт

— Джеймс

Джеймсе, я дав спокусливу відповідь на ваше запитання кілька хвилин тому.

— Карло Лаццаро

t

$t$ -тести можна виправити для перекошених популяцій, див. jstor.org/stable/2286597 - запропоновані виправлення добре працювали з досить перекошеними популяціями, такими як з 10 спостереженнями.

χ_{1}^{2}

$\chi^2_1$

— Стаск

13

Інші відповіді критикують ефективність довірчих інтервалів завантажувальної програми, а не саму завантажувальну систему. Це інша проблема.

Якщо ваш контекст задовольняє умовам регулярності конвергенції розподілу завантажувальної програми (конвергенція за кількістю проб завантажувального завантаження), то метод буде працювати, якщо ви використовуєте достатньо великий зразок завантажувальної програми.

Якщо ви дійсно хочете знайти проблеми використання непараметричної завантажувальної програми, ось дві проблеми:

(1) Проблеми з переустановкою.

Однією з проблем завантажувальної програми для малих або великих зразків є крок перекомпонування. Не завжди можливо перепробовувати, зберігаючи структуру (залежність, тимчасовість, ...) вибірки. Прикладом цього є накладений процес .

Припустимо, на кожному з яких події відбуваються час від часу, існує низка незалежних джерел. Інтервали між послідовними подіями в будь-якому одному джерелі вважаються незалежними випадковими змінними, все з однаковим розподілом, так що кожне джерело являє собою процес відновлення звичного типу. Виходи джерел об'єднуються в один об'єднаний вихід.

Як би ви перепрограмували, зберігаючи невідому структуру залежності ?

(2) Вузькі зразки завантаження та довірчі інтервали завантажувальних інструментів для малих зразків .

У невеликих вибірках мінімальний та максимум оцінювачів для кожної підпробової групи може визначати вузький інтервал, тоді права та ліва кінцеві точки будь-яких довірчих інтервалів будуть дуже вузькими (що є контруентитивним з огляду на малий зразок!) У деяких моделях.

Припустимо, що , де - швидкість. Використовуючи ймовірність профілю, можна отримати приблизний довірчий інтервал (приблизний довірчий інтервал 95% - інтервал вірогідності профілю 0,147 рівня) наступним чином: $x_1,x_2\sim \text{Exp}(\lambda)$ $\lambda>0$

set.seed(1)
x <- rexp(2,1)
# Maximum likelihood estimator
1/mean(x)

# Profile likelihood: provides a confidence interval with right-end point beyond the maximum inverse of the mean
Rp <- Vectorize(function(l) exp(sum(dexp(x,rate=l,log=T))-sum(dexp(x,rate=1/mean(x),log=T))))

curve(Rp,0,5)
lines(c(0,5),c(0.147,0.147),col="red")

Цей метод виробляє безперервну криву, звідки можна отримати довірчий інтервал. Максимальна оцінка ймовірності - . Перекомпонуючи, для цього оцінювача ми можемо отримати лише три можливі значення, максимум та мінімум яких визначають межі відповідних інтервалів довіри завантажувальної програми. Це може виглядати дивно, навіть для великих зразків завантажувальної машини (ви не збільшуєте багато, збільшуючи це число): $\lambda$ $\hat{\lambda}=2/(x_1+x_2)$

library(boot)
set.seed(1)
x <- rexp(2,1)
1/mean(x)
# Bootstrap interval: limited to the maximum inverse of the mean
f.boot <- function(data,ind) 1/mean(data[ind])
b.b <- boot(data=x, statistic=f.boot, R=100000)
boot.ci(b.b, conf = 0.95, type = "all")
hist(b.b$t)

У цьому випадку, чим ближче і , тим вузькішим є розподіл завантажувальної стрічки, а отже, і вузькіший довірчий інтервал (який може бути розташований далеко від реального значення). Цей приклад насправді пов'язаний із прикладом, поданим @GregSnow, хоча його аргумент був більш емпіричним. Межі, про які я згадую, пояснюють погану ефективність усіх довірчих інтервалів завантажувальної програми, проаналізованих @Wolfgang. $x_1$ $x_2$

— Тройло
джерело

6

Bootstrap добре працює в невеликих розмірах вибірки, забезпечуючи правильність тестів (наприклад, що номінальний рівень значущості 0,05 близький до фактичного розміру тесту), однак завантажувальний пристрій не надає магічної вашої додаткової потужності. Якщо у вас невеликий зразок, у вас мало сил, кінець історії.

Параметричні (лінійні моделі) та напівпараметричні (GEE) регресії, як правило, мають погані властивості малих вибірок ... перший - наслідок великої залежності від параметричних припущень, другий - через збільшення надійних стандартних оцінок помилок у малих вибірках. Завантаження (та інші тести на основі перекомпонування) в цих умовах справді добре .

Для прогнозування завантажувальна програма дасть вам кращі (більш чесні) оцінки внутрішньої обґрунтованості, ніж розділена валідація вибірки.

Час завантаження часто дає меншу потужність, як наслідок ненавмисного виправлення середніх процедур імпутації / гарячого набору (наприклад, у нечіткому зіставленні). Бутстраппінг помилково вважається, щоб надати більше потужності в збірних аналізах, де люди були повторно відібрані для задоволення достатнього розміру кластера, даючи завантажені збігані набори даних з більшим ніж набір даних аналізу. $n$

— АдамО
джерело

2

(наприклад, що номінальний рівень значимості 0,05 близький до фактичного розміру тесту), - але в R-коді вище ми щойно побачили, що завантажувальний пристрій не зберігає розмір тесту, правда?

— Джеймс

Я бачу, ви посилаєтесь на відповідь Грега Сноу. Я був здивований таким результатом. Мені потрібно буде повторно перевірити свої факти та відредагувати свою відповідь. Дякую.

— AdamO