Загальні процедури вибору змінних на основі даних (наприклад, вперед, назад, поетапно, всі підмножини), як правило, дають моделі з небажаними властивостями, включаючи:
- Коефіцієнти відхиляються від нуля.
- Стандартні помилки, які занадто малі, і довірчі інтервали, які занадто вузькі.
- Статистика тестів та p-значень, які не мають рекламованого значення.
- Оцінки відповідності моделі, які надмірно оптимістичні.
- Включені терміни, які можуть бути безглуздими (наприклад, виключення термінів нижчого порядку).
Однак, різні процедури відбору зберігаються. Зважаючи на проблеми із змінним підбором, чому ці процедури необхідні? Що мотивує їх використання?
Деякі пропозиції для початку дискусії ....
- Прагнення до інтерпретованих коефіцієнтів регресії? (Помилково в моделі з багатьма ІV?)
- Усунути дисперсію, внесену невідповідними змінними?
- Усунути непотрібну коваріацію / надмірність незалежних змінних?
- Зменшити кількість оцінок параметрів (питання потужності, розмір вибірки)
Є інші? Чи вводяться проблеми, вирішені методами змінної селекції, більш-менш важливими, ніж проблеми, що вводяться в процедурах вибору змінних? Коли їх слід використовувати? Коли їх не слід використовувати?