Як трактувати логарифмічно перетворені коефіцієнти в лінійній регресії?


10

Моя ситуація така:

У мене є 1 безперервна залежна та 1 безперервна змінна предиктора, яку я логарифмічно перетворив, щоб нормалізувати їх залишки для простої лінійної регресії.

Я вдячний за будь-яку допомогу щодо того, як я можу співвідносити ці перетворені змінні з їх початковим контекстом.

Я хочу використовувати лінійну регресію, щоб передбачити кількість днів, через які учні пропустили школу в 2011 році, виходячи з кількості днів, які вони пропустили в 2010 році. Більшість учнів пропускають 0 днів або лише кілька днів, дані позитивно перекошені зліва. Тому існує потреба в перетворенні на використання лінійної регресії.

Я використовував log10 (var + 1) для обох змінних (я використовував +1 для учнів, які пропустили школу за 0 днів). Я використовую регресію, тому що хочу додати категоричні фактори - також гендер / етнічну приналежність тощо.

Моя проблема:

Аудиторія, на яку я хочу повернутись, не зрозуміла log10 (y) = log (константа) + log (var2) x (і, відверто кажучи, і ні).

Мої запитання:

а) Чи є кращі способи інтерпретації трансформованих змінних в регресії? Тобто коли-небудь пропущений 1 день у 2010 році, вони пропустять 2 дні в 2011 році, на відміну від колись змінити 1 одиницю журналу в 2010 році, буде x змінити одиниць журналу в 2011 році?

b) Зокрема, з урахуванням цитованого уривку з цього джерела :

"Це негативна оцінка біноміальної регресії для збільшення на одиницю збільшення стандартизованого тесту з математики, враховуючи, що інші змінні є постійними у моделі. Якщо студент повинен був збільшити її бальний тест з математики на один бал, різниця в журналах очікуваний підрахунок, як очікується, зменшиться на 0,0016 одиниці, утримуючи інші змінні в моделі постійною ".

Я хотів би знати:

  • Чи говорить цей уривок, що за кожну одиницю збільшення показника UNTRANSFORMEDматематики змінної призводить до зниження 0,0016 від константи (a), тож якщо UNTRANSFORMEDматематична оцінка зростає на два бали, я віднімаю 0,0016 * 2 від постійної a?
  • Чи означає це, що я отримую середнє геометричне, використовуючи експоненціальну (а)) та експоненціальну (а + бета * 2), і що мені потрібно обчислити відсоткову різницю між цими двома, щоб сказати, який ефект має змінна (і) провісника / мати залежну змінну?
  • Або я зрозумів це абсолютно неправильно?

Я використовую SPSS v20. Вибачте за те, що ви поставили це в довгому питанні.



8
Чи думали ви замість цього використовувати регресію Пуассона? Це, природно, вказано залежними даними підрахунку, і ваш успіх у перетворенні журналу відповідає розподілам Пуассона. Коефіцієнти трактуватимуться пропорційним збільшенням очікуваної ймовірності пропуску навчального дня. Одна перевага полягає в тому, що не потрібно спеціального лікування нулів (хоча це все ще дуже гарна ідея переглянути альтернативну модель із заниженою нулем).
whuber

Привіт Вюбер, так, я думав про пуассонову регресію, але не був у цьому впевнений або не вирішив негативної біноміальної регресії. Я здогадуюсь негативного двочлена, оскільки дані перебільшені - тобто середнє значення є нижчим, ніж дисперсія в наборі даних (отже, позитивний перекіс). Крім того, суворо, існує верхня межа кількості шкільних занять у році, тоді як Пуассон передбачає необмежений знаменник? Або ти все ще вважаєш, що Пуассон більш доречний? На жаль, SPSS не підтримує нульові завищені моделі, наскільки я бачив ...) Спасибі Whuber :)
JimBob

3
Я не бачу проблем з необмеженою підтримкою дистрибутивів Пуассона: це аналогічно використанню нормальних розподілів для моделювання, скажімо, значень, які повинні бути негативними. Якщо шанси, пов'язані з неможливими значеннями, невеликі, то це може бути хорошою моделлю. Негативний двочлен - це стандартна альтернатива Пуассону, що використовується для перевірки на міцність придатності та перенапруження; це гарна ідея. Якщо SPSS занадто обмежений, використовуйте щось інше! ( Rмає пакунки для моделей із
зануреним рівнем

2
Я погоджуюся з @whuber. Я думаю, ви, мабуть, хочете модель ZIP або ZINB. Я просто додам, що вони також доступні в SAS через PROC COUNTREG (в ETS) і, починаючи з SAS 9.2, в PROC GENMOD (в STAT)
Peter Flom

2
На сайті stats.stackexchange.com/questions/18480/… є дуже хороша інформація .
rolando2

Відповіді:


7

Я думаю, що важливіший момент пропонується у коментарі @ whuber. Весь ваш підхід помилковий, тому що, використовуючи логарифми, ви фактично викидаєте з набору даних будь-які студенти, які не мають нульових днів або в 2010, або в 2011 році. Здається, що цих людей достатньо, щоб виникнути проблеми, і я впевнений, що ваші результати не помиляйтеся на основі підходу, який ви приймаєте.

Натомість вам потрібно встановити узагальнену лінійну модель з реакцією Пуассона. SPSS не може цього зробити, якщо ви не заплатили за відповідний модуль, тому я б запропонував оновити до R.

Ви все ще будете мати проблему інтерпретації коефіцієнтів, але це є другорядним значенням наявності моделі, яка в основному є відповідною.


xlog(x+1)

3

Я погоджуюся з іншими респондентами, особливо стосовно форми моделі. Якщо я розумію мотивацію вашого питання, проте ви звертаєтесь до загальної аудиторії та хочете передати змістовне(теоретичне) значення вашого аналізу. Для цього я порівнюю прогнозовані значення (наприклад, прогнозовані пропущені дні) у різних "сценаріях". Виходячи з обраної вами моделі, ви можете порівняти очікуване число чи значення залежної змінної, коли передбачувачі знаходяться у певних певних фіксованих значеннях (наприклад, їх медіани або нуль, наприклад), а потім показати, як "змістовне" зміна прогнозів впливає на прогнози. Звичайно, ви повинні перетворити дані назад у початковий, зрозумілий масштаб, з якого ви починаєте. Я кажу "змістовна зміна", оскільки часто стандартна "зміна однієї одиниці в X" не передає реального імпорту або відсутності незалежної змінної. Маючи "дані про відвідуваність", я не впевнений, що таке зміни. (Якщо учень не пропустив жодних днів у 2010 році та одного дня у 2011 році, Я не впевнений, що ми б чомусь навчились. Але я не знаю.)


2

Y=bXXY=blog(X)Xblog(1.01)

Edit: whoops, не усвідомлював, що ваша залежна змінна також трансформується журналом. Ось посилання з хорошим прикладом, що описує всі три ситуації:

1) перетворюється лише Y 2) трансформуються тільки предиктори 3) трансформуються і Y, і предиктори

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
Привіт JC, дякую за вашу відповідь. Я взяв підхід до перетворення як моїх залежних, так і незалежних змінних для послідовності, але я прочитав, що трансформація справді потребує лише DV для нормальності порівняно з його IV.
JimBob

Я фактично бачив посилання, яке ви запропонували (спасибі тхо), але не було зрозумілим у кількох пунктах, особливо щодо порівняння геометричного середнього з «реальним життям», але я думаю, що використання геометричного середнього стосується більше моделювання вплив зміни x на y, а не результат y на одиницю зміни x? Я думаю, що мені потрібно повернутися назад і дати йому ще раз прочитати ...
JimBob

2

YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2

ви можете просто показати:

YC M1X1 M2X2 M3X3 ,

де: , і є множниками. Тобто кожен раз, коли коваріант дорівнює 1, передбачення множиться на . Наприклад, якщо , і , ваш прогноз:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 .

Я використовую оскільки це не зовсім передбачення середнього значення : середній параметр нормального розподілу журналу взагалі не є середнім значенням випадкової величини (як це стосується класичної лінійної регресії без журнал-перетворення). Тут я не маю точних посилань, але я думаю, що це прямолінійні міркування.Y


3
Ви не повинні турбуватися про проблеми з логотипом: множники правильні незалежно. (Була б проблема з гетеросептичними моделями.) Це тому, що де - дисперсія . BTW, будь ласка, скануйте свої визначення на помилки. E[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.