Чи взагалі можна захищати стратифікацію набору даних за розміром залишку та проводити порівняння у двох зразках?


16

Це те, що я вважаю зробленим як своєрідний метод, і мені це здається дуже рибковим, але, можливо, я щось пропускаю. Я бачив це в багатьох регресіях, але давайте просто будемо робити це просто:

yi=β0+β1xi+εi

Тепер візьміть залишки від встановленої моделі

ei=yi(β^0+β^1xi)

і стратифікувати зразок виходячи з розміру залишків. Наприклад, скажімо, що перший зразок - це 90% нижчих залишків, а другий - 10%, а потім - два порівняння вибірки - я бачив, як це робилося як на прогнокторі в моделі, і щодо змінних, які не є в моделі. Використовувана неформальна логіка полягає в тому, що, можливо, точки, які мають значення, набагато вищі, ніж ви очікували в моделі (тобто великий залишковий), певним чином відрізняються, і ця різниця досліджується таким чином.x

Мої думки з цього приводу:

  • Якщо ви бачите в моделі 2-вибіркову різницю щодо предиктора, то виникають ефекти провісника, які не враховуються моделлю в його поточному стані (тобто нелінійні ефекти).
  • Якщо ви бачите різницю в 2-х вибірках змінної не в моделі, то, можливо, вона повинна була бути в моделі в першу чергу.

Одне, що я виявив емпірично (за допомогою симуляцій), - це те, що якщо ви порівнюєте середнє значення прогноктора в моделі і таким чином стратифікуєте, щоб отримати два засоби вибірки, і , вони позитивно співвідносяться між собою. Це має сенс, оскільки обидва зразки залежать від та . Ця кореляція збільшується в міру переміщення відсікання (тобто%, який ви використовуєте для поділу вибірки). Так щонайменше, якщо ви збираєтеся зробити порівняння у двох зразках стандартної помилки в знаменникуxx¯1x¯2y¯,x¯,σ^x,σ^yρ^xyt-статистику потрібно скоригувати, щоб врахувати кореляцію (хоча я не вивів явної формули коваріації).

Як би там не було, моє основне питання: чи є обґрунтування для цього? Якщо так, то в яких ситуаціях це може бути корисно зробити? Ясна річ, я не думаю, що є, але може бути щось, про що я не думаю правильно.


чи обидва порівняння вибірки використовують однакові IVs? Якщо це так, я не можу бачити сенсу цього, оскільки залишковий спліт вже використовує цю інформацію. Чи можете ви навести приклад того, де ви це бачили, це для мене нове?
Мішель

1
Ну, можливо, це може бути використане в якості діагностики, щоб побачити, чи є у вас неправильне уточнення моделі - що ви думаєте про це?
Макрос

3
Я не бачу сенсу робити це, крім діагностичного інструменту для виявлення проблемних точок або відсутніх нелінійних ефектів, як це запропоновано вищевказаними коментарями. Я думаю, дві точки в ОП ("думки з цього приводу ...") є досить звуковими.
Пітер Елліс

1
Ця методика використовується Лохом та його співавторами для визначення розділених змінних у його алгоритмах дерева ПОДДЕРЖКА та, я думаю, Керівництво. Оскільки набір даних розподіляється таким чином, його можна вважати пошуком нелінійного впливу (проксі за допомогою ступінчастої функції) та визначення того, чи дійсно була забута змінна. Я пам'ятаю, як цікаво, чи це розумно, можливо, ви знайдете більше пояснень у своїх роботах (я не пригадую).
Момо

1
А як же, немає проблем. Ось Чаудхурі та ін. www3.stat.sinica.edu.tw/statistica/j4n1/j4n18/j4n18.htm www3.stat.sinica.edu.tw/statistica/j5n2/j5n217/j5n217.htm посилання на підтримку і сторінку Loh et al для GUIDE stat. wisc.edu/~loh/guide.html
Momo

Відповіді:


8

Порівняння засобів занадто слабке: натомість порівняйте розподіли.

Існує також питання щодо того, чи бажаніше порівнювати розміри залишків (як зазначено) або порівнювати самі залишки. Тому я оцінюю і те, і інше.

Щоб бути конкретним щодо того, що мається на увазі, ось якийсь Rкод для порівняння даних (наведених у паралельних масивах та ) шляхом регресування y на x , ділення залишків на три групи, розрізавши їх нижче квантиля q 0 і вище квантиля q 1 > q 0 і (за допомогою графіку qq) порівнюючи розподіли значень x, пов'язаних з цими двома групами.(x,y)xyyxq0q1>q0x

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

П'ятий аргумент цієї функції abs0за замовчуванням використовує розміри (абсолютні значення) залишків для формування груп. Пізніше ми можемо замінити це функцією, яка використовує самі залишки.

xy

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

yβ0+β1x+β2x2sdq0q1abs0n.trialsn(x,y)дані, їх залишки та сюжети qq множинних випробувань - щоб допомогти нам зрозуміти, як працюють запропоновані тести для даної моделі (як визначено n, бета, s та sd). Приклади цих сюжетів наведені нижче.

Давайте тепер скористаємося цими інструментами для дослідження деяких реалістичних комбінацій нелінійності та гетероседастичності, використовуючи абсолютні значення залишків:

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

xxx

Абсолютні значення

xxx

Зробимо те саме, використовуючи абсолютно ті самі дані , але аналізуючи самі залишки. Для цього попередній блок коду був повторно виконаний після внесення цієї модифікації:

size <- function(x) x

Залишки

x

Можливо, поєднання обох цих методів допоможе. Ці симуляції (та їх варіації, якими зацікавлений читач може працювати на дозвіллі) демонструють, що ці прийоми не позбавлені.

x(x,y^x)ми можемо очікувати, що запропоновані тести будуть менш потужними, ніж тести, засновані на регресії, як Breusch-Pagan .


2

eixi

Інші зауважили, що це може бути лише інструментом розвідки, щоб визначити, чи слід моделювати два набори даних окремо. Якщо це так, це, можливо, інші дослідницькі підходи, можливо, буде добре. Але питання стає тоді, що робити далі? Якщо ви збираєтеся потім зробити дві окремі регресії та зробити висновки про зразки, я думаю, вам потрібно якось врахувати спосіб поділу вибірки.


0

Я думаю, може бути декілька мотивацій для цього, наприклад, припускаючи, що залишки є послідовними, тоді метод, який ви згадуєте, може допомогти визначити зовнішні спостереження, таким чином другий крок надає "виправлені" оцінки. Але існують більш суворі методи, які виявляють сторонніх людей або забезпечують надійні оцінки таких спостережень, як квантильні регресії, LMS (найменше медіана квадратів) або M-оцінки тощо, де всі ці методи добре визначені і відомі статистичні властивості. (Це адресовано @Michael Chernik)

Іншою мотивацією може бути ідентифікація кластера, але це примітивно в порівнянні з наявними методами виявлення кластерів, які також добре визначені та широко реалізовані.

В обох випадках використання залишків видається неформальним і примітивним, але все-таки може бути прийнято як дослідницький інструмент. Це також залежить від домену читачів. Я вважаю це прийнятним для деяких соціальних наук, де кількісні інструменти можуть бути менш популярними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.