Коли і як використовувати стандартизовані пояснювальні змінні в лінійній регресії


37

У мене є 2 прості запитання щодо лінійної регресії:

  1. Коли рекомендується стандартизувати пояснювальні змінні?
  2. Як тільки оцінка проводиться за допомогою стандартизованих значень, як можна передбачити нові значення (як слід стандартизувати нові значення)?

Деякі довідки були б корисні.


3
Якщо ваше програмне забезпечення добре написане, воно автоматично внутрішньо стандартизується, щоб уникнути проблем із точністю чисельності. Вам не слід було робити нічого особливого.
whuber

1
Зауважте, що наступний потік пов'язаний, і буде цікавим: Коли слід зосереджувати свої дані та коли слід стандартизувати? .
gung - Відновіть Моніку

Відповіді:


26

Хоча термінологія є спірною темою, я вважаю за краще називати "пояснювальні" змінні, "провісник" змінні.

Коли стандартизувати прогнози:

  • Багато програмного забезпечення для виконання декількох лінійних регресій забезпечить стандартизовані коефіцієнти, еквівалентні нестандартним коефіцієнтам, де ви вручну стандартизуєте прогнози та змінну реакції (звичайно, це здається, що ви говорите лише про стандартизацію прогнозів).
  • На мою думку, стандартизація є корисним інструментом для підвищення рівняння регресії. Особливо це стосується тих випадків, коли метриці змінної не вистачає значення для людини, що інтерпретує рівняння регресії (наприклад, психологічна шкала на довільній метриці). Він також може бути використаний для полегшення порівнянності відносної важливості змінних прогнозів (хоча існують і інші більш складні підходи для оцінки відносної важливості; див. Мій пост для обговорення ). У випадках, коли метрика має значення для людини, що інтерпретує рівняння регресії, нестандартні коефіцієнти часто є більш інформативними.
  • Я також думаю, що покладання на стандартизовані змінні може відвести увагу від того, що ми не думали про те, як зробити метрику змінної більш значущою для читача.

  • Ендрю Гельман на цю тему може трохи сказати. Дивіться його сторінку про стандартизацію, наприклад, та Gelman (2008, Stats Med, FREE PDF) .

Прогнозування на основі стандартизації:

  • Я б не використовував стандартизовані коефіцієнти регресії для прогнозування.
  • Ви завжди можете перетворити стандартизовані коефіцієнти в нестандартні коефіцієнти, якщо знаєте середнє та стандартне відхилення змінної предиктора в початковій вибірці.

3
+1, але чому б ви не використовували нестандартні коефіцієнти регресії для прогнозування?
onestop

1
(+1) Щодо оцінки мінливої ​​важливості, я думаю, що пакет relaimpo R добре справляється (але див. Початок роботи з сучасним підходом до регресії ). Був також приємний документ Девіда В. Будеску про аналіз домінування (вільно доступний за запитом).
chl

@onestep на жаль. друкарські помилки. Зараз це змінилося.
Джеромі Англім

1
@Jeromy, Не могли б ви пояснити, чому ви не використовуєте стандартизовані коефіцієнти регресії для прогнозування?
Михайло Єпископ

3
@MichaelBishop Я думаю про контексти, де ви берете свою регресійну модель і застосовуєте її для прогнозування вибіркових даних. Загалом, ви хочете нестандартних прогнозів. Крім того, засоби та стандартні відхилення можуть змінюватися у зразках; використання нестандартних прогнозів повинно давати більш значущі результати.
Джеромі Англім

-4

Дозвольте відповісти тістом з короткою відповіддю, воно може перегукуватися з вишуканою відповіддю, написаною раніше.

  1. Завжди стандартизуйте, що дозволяє інтерпретувати регресію, особливо коефіцієнти регресії.

  2. Що стосується нових даних, які не є стандартизованими, я рекомендую вам зберігати значення, які ви використовували для кожної змінної, яка підлягає стандартизації, наприклад, максимум і мінімум, а потім виконайте те саме перетворення, яке ви робили в наборі даних про дірку раніше, але тільки для цього одиничний екземпляр.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.