Інтерпретація прогнозованого прогнозу та / або відповіді перетвореного журналом


46

Мені цікаво, чи має значення інтерпретація, чи трансформуються лише залежні, і залежні, і незалежні, або лише незалежні змінні.

Розглянемо випадок

log(DV) = Intercept + B1*IV + Error 

Я можу трактувати ІV як збільшення відсотка, але як це змінюється, коли я маю

log(DV) = Intercept + B1*log(IV) + Error

або коли я маю

DV = Intercept + B1*log(IV) + Error

?


1
У мене є відчуття, що тлумачення "збільшення відсотків" не є правильним, але мені не вистачає розуміння, щоб сказати, чому саме так. Я сподіваюся, що хтось може допомогти .... Крім того, я рекомендую моделювати за допомогою журналів, якщо вони допомагають краще встановити XY-зв’язок, але повідомляючи про вибрані приклади цього зв’язку, використовуючи оригінальні змінні. Особливо, якщо мати справу з аудиторією, яка не надто технічно підкована.
rolando2

3
@ rolando2: Я не згоден. Якщо дійсна модель вимагає перетворення, то правильна інтерпретація, як правило, спирається на коефіцієнти трансформованої моделі. Наслідком слідчого залишається належним чином донести до аудиторії значення цих коефіцієнтів. Звичайно, чому нам платять такі великі гроші, що зарплати повинні бути перетворені в першу чергу.
jthetzel

1
@BigBucks: Ну, поглянь на це так. Припустимо, ваша аудиторія просто не може зрозуміти, що ви маєте на увазі, коли ви пояснюєте, що для кожної зміни 1 в журналі (база 10) X, Y зміниться на b. Але припустимо, що вони можуть зрозуміти 3 приклади, використовуючи значення X 10, 100 та 1000. Вони, в цей момент, швидше за все, дотягнуться до нелінійного характеру відносин. Ви все ще можете повідомити про загальний b, заснований на журналі, але наведення цих прикладів може змінити все.
rolando2

1
.... Хоча зараз, коли я прочитав ваше чудове пояснення нижче, можливо, використання цих "шаблонів" могло б допомогти багатьом з нас виправити подібні проблеми в розумінні.
rolando2

Відповіді:


42

Чарлі дає приємне, правильне пояснення. На сайті статистичних обчислень в UCLA є ще кілька прикладів: http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm та http://www.ats.ucla.edu/stat/mult_pkg/ faq / general / log_transformed_regression.htm

Просто для доповнення відповіді Чарлі, нижче - конкретні тлумачення ваших прикладів. Як завжди, інтерпретація коефіцієнтів передбачає, що ви можете захистити свою модель, що діагностика регресії задовільна, і що дані отримані з дійсного дослідження.

Приклад A : Ніяких перетворень

DV = Intercept + B1 * IV + Error 

"Один приріст одиниці IV пов'язаний із B1збільшенням ( ) одиниці DV."

Приклад B : Результат трансформується

log(DV) = Intercept + B1 * IV + Error 

"Один приріст одиниці IV пов'язаний зі B1 * 100збільшенням ( ) відсотків DV."

Приклад C : Експозиція перетворена

DV = Intercept + B1 * log(IV) + Error 

"Збільшення IV відсотків пов'язане із B1 / 100збільшенням (DV) одиниці".

Приклад D : Результат трансформується і експозиція трансформується

log(DV) = Intercept + B1 * log(IV) + Error 

"Збільшення IV відсотка пов'язане із B1збільшенням (DV) відсотків".


1
Чи трапляються ці інтерпретації незалежно від основи логарифму?
Аялев А.

Приклад B: Журнал, трансформований за результатами (DV) = Перехоплення + B1 * IV + Помилка. "Одне збільшення одиниці IV пов'язане зі збільшенням (B1 * 100) відсотків DV У цьому випадку, як вам це зробити, якщо ви хочете, щоб 30 відсотків Зниження DV? Дякую за вашу відповідь
Antouria

Отже, журнал DV ~ B1 * (IV) є хорошою моделлю для нульової обмеженої безперервної залежної змінної?
Бакабург

2
Мене може розгубити. Якщо ви реєструєте результат перетворення, вам слід повторно експоненцію коефіцієнта, щоб знайти мультиплікативну різницю. Інтерпретація його в масштабі журналу працює лише наближенням, коли коефіцієнт дуже близький до 1.
AdamO

Посилання розірвані.
Нік Кокс

22

У моделі log-log дивіться, що Нагадаємо, що або Помноживши цю останню формулювання на 100 дає процентну зміну . У нас є аналогічні результати для .

β1=log(y)log(x).
log(y)y=1y
log(y)=yy.
yx

Використовуючи цей факт, ми можемо інтерпретувати як відсоткову зміну для 1-відсоткової зміни у .β1yx

Дотримуючись тієї ж логіки, для моделі журналу рівнів у нас є

β1=ylog(x)=100y100×log(x).
або - це зміна одиниці для зміни на один відсоток у .β1/100yx

Я ніколи цього не розумів. Це повинно бути прямо вперед, але я його ніколи не бачив ... Що саме таке і як ви переходите звідси до зміни відсотка?
log(y)=yy?
B_Miner

1
Все, що це робить, це взяти похідну відносно та помножити обидві сторони на . Маємо . Ця частка, то є зміна поділена на . Помножити на 100, це процентна зміна в . log(y)yyyy1y0yyy
Чарлі

7

Основна мета лінійної регресії - оцінити середню різницю результатів порівняння суміжних рівнів регресора. Існує багато видів засобів. Нам найбільше знайоме середнє арифметичне.

AM(X)=(X1+X2++Xn)n

AM - це те, що оцінюється за допомогою OLS та нетрансформованих змінних. Середнє геометричне значення різне:

GM(X)=(X1×X2××Xn)n=exp(AM(log(X))

введіть тут опис зображення

Практично різниця в ГМ - це мультипликативна різниця: ви берете на сплату відсотків X% премії, приймаючи позику, рівень гемоглобіну зменшується на X% після запуску метформіну, рівень відмови пружин збільшується на X% як частка ширини. У всіх цих випадках сира середня різниця має менше сенсу.

Перетворення журналу оцінює середню геометричну різницю. При вході в системі перетворення результату і змоделювати його в лінійної регресії , використовуючи наступну формулу специфікацію: log(y) ~ xкоефіцієнт є середньою різницею результатів журналу порівняння сусідніх одиниць . Це практично марно, тому ми експонуємо параметр і інтерпретуємо це значення як середню геометричну різницю. X e β 1β1Xeβ1

Наприклад, у дослідженні вірусного навантаження на ВІЛ після введення АРТ за 10 тижнів, ми могли б оцінити середнє значення геометрії передпостового . Це означає, що незалежно від того, що вірусне навантаження було на початковій лінії, воно було в середньому на 60% нижче або зменшилось у 0,6 рази під час спостереження. Якби навантаження було 10 000 на базовій лінії, моя модель передбачала б, що вона буде 4000 при подальшому спостереженні, якщо вона буде 1000 на базовій лінії, моя модель передбачає, що вона буде 400 при подальшому спостереженні (менша різниця в масштабі сировини, але пропорційно однакові).eβ1=0.40

Це важлива відмінність від інших відповідей : Конвенція про множення коефіцієнта лог-шкали на 100 походить від наближення коли малий. Якщо коефіцієнт (за логарифмічною шкалою) , це сказати 0,05, то і інтерпретація: 5% «збільшення» в результатах для 1 одиниці «збільшення» в . Однак, якщо коефіцієнт дорівнює 0,5 , то , і ми інтерпретувати це як «збільшення» 65% в для 1 одиницю «збільшення» в . Це НЕ 50% збільшення.X exp ( 0,05 ) 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)1xXexp(0.05)1.05Xexp(0.5)=1.65YX

Припустимо , що ми реєструємо перетворення провісник: y ~ log(x, base=2). Тут мене цікавить мультипликативна зміна а не сурова різниця. Я зараз цікавить порівняння учасників , що відрізняються по 2 рази в . Припустимо, наприклад, мене цікавить вимірювання інфекції (так / ні) після впливу збудника крові, що переноситься в крові в різних концентраціях, використовуючи модель адитивного ризику. Біологічна модель може припускати, що ризик збільшується пропорційно для кожного подвоєння концентрації. Тоді я не перетворюю свій результат, але розрахунковий коефіцієнт трактується як різниця ризику, порівнюючи групи, виявлені при двократних різницях концентрації інфекційного матеріалу.X β 1xXβ1

Нарешті, log(y) ~ log(x)просто застосовується обидва визначення, щоб отримати мультиплікативну різницю, порівнюючи групи, що різняться мультиплікативно за рівнями експозиції.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.