Дисбаланс - це не обов'язково проблема, але те, як ви потрапите, може бути. Базову стратегію вибірки базувати на цільовій змінній. Оскільки ця змінна включає випадковість у вашій регресійній моделі, якщо ви зробите вибірку на основі цього, у вас виникнуть великі проблеми з будь-яким виводом. Я сумніваюся, що ці проблеми можна "скасувати".
Ви можете законно переоцінювати або недооцінювати вибірку на основі змінних прогнозів . У цьому випадку, якщо ви ретельно переконаєтесь, що припущення щодо моделей здаються дійсними (наприклад, гомоскедастичність, яка виникає на увазі як важлива в цій ситуації, якщо у вас є "звичайна" регресія з звичайними припущеннями), я не думаю, що вам потрібно скасуйте надмірне відображення при прогнозуванні. Тепер ваш випадок буде аналогічний аналітику, який явно розробив експеримент, щоб мати збалансований діапазон змінних прогнозів.
Редагувати - додавання - розширення щодо того, чому погано вибірки на основі Y
При встановленні стандартної регресійної моделі очікується, що буде нормально розподіленим, мати середнє значення нуля і бути незалежним та однаково розподіленим. Якщо ви обираєте вибірку на основі значення y (яке включає внесок , а також ), то e більше не матиме середнього нуля або буде розподілено однаково. Наприклад, низька величина y, яка може включати дуже низькі значення e, може бути меншою ймовірністю. Це руйнує будь-які умовиводи, засновані на звичайних засобах підгонки таких моделей. Виправлення можуть бути подібними до тих, що зроблені в економетриці для встановлення усічених моделей, але вони є болем і вимагають додаткових припущень, і їх слід застосовувати лише тоді, коли альтернативи немає.у= Xb + eееХб
Розглянемо крайню ілюстрацію нижче. Якщо обрізати ваші дані за довільним значенням для змінної відповіді, ви вводите дуже значні ухили. Якщо обрізати його для пояснювальної змінної, не обов'язково виникає проблема. Ви бачите, що зелена лінія, заснована на підмножині, вибраному через значення їх передбачувача, дуже близька до справжньої пристосованої лінії; цього не можна сказати про синю лінію, засновану лише на синіх точках.
Це поширюється на менш тяжкий випадок недостатнього або надмірного розміщення (оскільки усічення можна сприймати як недоцілене зближення, прийняте до своєї логічної крайності).
# generate data
x <- rnorm(100)
y <- 3 + 2*x + rnorm(100)
# demonstrate
plot(x,y, bty="l")
abline(v=0, col="grey70")
abline(h=4, col="grey70")
abline(3,2, col=1)
abline(lm(y~x), col=2)
abline(lm(y[x>0] ~ x[x>0]), col=3)
abline(lm(y[y>4] ~ x[y>4]), col=4)
points(x[y>4], y[y>4], pch=19, col=4)
points(x[x>0], y[x>0], pch=1, cex=1.5, col=3)
legend(-2.5,8, legend=c("True line", "Fitted - all data", "Fitted - subset based on x",
"Fitted - subset based on y"), lty=1, col=1:4, bty="n")