Чи має сенс використовувати змінну дати в регресії?


17

Я не звик використовувати змінні у форматі дат у Р. Мені просто цікаво, чи можна додати змінну дати як пояснювальну змінну в лінійну регресійну модель. Якщо це можливо, як можна інтерпретувати коефіцієнт? Це вплив одного дня на змінну результату?

Дивіться мою суть з прикладом того, що я намагаюся зробити.


3
Дату можна перетворити на число.

моє враження, що R робить це автоматично
PAC

3
Але отримані цифри часто величезні, що може призвести до проблем. Краще конвертувати себе, наприклад, у часові кроки (години чи дні чи ...) з початку вимірювань. Це також полегшує тлумачення перехоплення.
Roland

3
Перетворити на коефіцієнт (для отримання фіксованих ефектів за день) або перетворити на числове та масштабне значення, тому значення першого дня дорівнює 0, щоб отримати лінійний ефект днів з моменту виникнення.
Томас

1
Це справді гарне запитання. Я думаю, що це і те, і статистичне питання, і питання програмування. Питання програмування полягає в тому, як R поводиться з датами, коли ми ставимо дати як пояснювальну змінну в регресійну модель, а статистичне питання стосується точної інтерпретації коефіцієнта.
PAC

Відповіді:


17

Спираючись на попередні коментарі щодо переповнення стека:

Так, це має сенс. Тут я звертаюсь із загальним питанням і радо дозволю експертам R дописати найважливіші деталі. На мою думку, оскільки це зараз є перехресним підтвердженням, ми не повинні надто вузько зосереджуватися на улюбленому програмному забезпеченні плаката, хоча це важливо для однодумців.

Дати в будь-якому програмному забезпеченні, якщо не числові, можна перетворити на числові змінні, виражені в роках, днях, мілісекундах або тому, що починається з певного часу. Коефіцієнт, пов'язаний з кожною датою, має одиниці знаменника, які є будь-якими одиницями дати. Одиниці чисельника залежать від одиниць відповіді або залежної змінної. (Природні функції зв’язку без ідентичності ускладнюють це, природно.)

Однак зазвичай має найбільше сенс, коли дати зміщуються на походження, яке має сенс для дослідження. Зазвичай, але не обов'язково, походження має бути датою протягом періоду навчання або дуже близькою до неї.

Мабуть, найпростіший випадок - лінійна регресія за змінною дати у роках. Тут регрес деяких responseз dateвиражених як дат, таких як 2000 або 2010, передбачає перехоплення, яке є значенням responseу році 0. Відміняючи деталі календаря, що такого року не було, такий перехоплення часто є абсурдно великим позитивним чи негативним, що є логічне, але відволікання в інтерпретації та викладі (навіть добре обізнаній аудиторії).

У реальному прикладі роботи зі студентами магістратури кількість циклонів на рік у певній області з часом збільшувалася незначно, і лінійна тенденція виглядала розумною першою оцінкою. Перехоплення від регресії було великим негативним числом, що спричинило багато спантеличення, поки не було зрозуміло, що це, як завжди, екстраполяція до року 0. Переміщення походження на 2000 рік дало кращі результати. (Власне, регресія Пуассона, що забезпечує позитивні прогнози, була ще кращою, але це вже інша історія.)

date - 2000Таким чином, хороша ідея регресує на тому чи іншому. Змістовні деталі дослідження часто вказують на хорошу базову дату, тобто нове походження.

Використання інших моделей та / або інших прогнозів не підриває цей принцип; це просто затьмарює це.

Це також гарна ідея графікувати результати, використовуючи будь-які дати, які найпростіше думати. Це можуть бути початкові дати; це не суперечність, оскільки це лише той самий принцип використання того, що найпростіше думати.

Невелика думка показує, що принцип набагато більш загальний. Нам часто краще (вік - 20 років) чи щось подібне, щоб уникнути логічних, але незручних прогнозів для 0 років.

EDIT 21 березня 2019 р. (Оригінал 29 липня 2013 р.): Ці аргументи були обговорені в контексті Stata у Кокс, Нью-Джерсі 2015 р. Види походження. Stata Journal 15: 574-587 дивіться тут

EDIT 2 також 4 грудня 2015 р. @Whuber в коментарях порушує також важливу проблему числової точності. Часто одиниці часу є нормальними, а отримані дати або дати можуть бути дуже великими, викликаючи важливі питання щодо сум квадратів тощо, тощо. Він наводить приклад з Р. До цього ми можемо додати (наприклад), що дати в часі Stata становлять мілісекунди з початку 1960 року. Ця проблема зовсім не характерна для дат, оскільки вона може виникати, як правило, із великими числами або дуже маленький, але варто також позначити.


1
Економічно кажучи, дата часто використовується як проксі для незмірної змінної або просто даних, які ви не можете легко отримати. Це можна побачити у збільшенні темпів продажу певного товару від нової компанії з часом, коли розпізнаваність бренду зростає. Оскільки ви, швидше за все, не маєте показника для розпізнавання бренда, дату можна використовувати як проксі. Це дасть вашим іншим регресорам "більш реалістичні" коефіцієнти. ** TL: DR **, ви повинні бути обережними, використовуючи дату в регресії, не замислюючись про те, які дати, що відміряють фактори, можуть бути пов'язані з тим, що вплине на вашу незалежну змінну
scott

1
Хороша порада. Я гадаю, що дата (функція) календарної дати зазвичай є проксі-сервером для певного процесу в часі, який важко зафіксувати інакше, тому точка поширюється далеко за межі економетрики.
Нік Кокс

1
Мені подобаються синуси та косинуси, як будь-хто, але яка вибірка проблем між дисциплінами призводить до цього судження?
Нік Кокс

1
Якщо вам цікаво, перегляньте stata-journal.com/sjsearch.html?choice=keyword&q=season для посилань на деякі мої роботи про сезонність.
Нік Кокс

3
R1

5

Як було сказано вище, при відповідному масштабуванні дати є чудовими регресорами. Часові ефекти рідше лінійні, ніж навіть типові коваріати, тому я майже завжди використовую регресійні сплайси в часі. Деякі складні тенденції часу вимагають підключення багатьох вузлів (наприклад, 7 або більше). Обмежені кубічні сплайни (природні сплайни) забезпечують більш безпечну лінійну екстраполяцію після закінчення спостережуваних часів, хоча екстраполяція рідко є абсолютно безпечною.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.