Основна мета лінійної регресії - оцінити середню різницю результатів порівняння суміжних рівнів регресора. Існує багато видів засобів. Нам найбільше знайоме середнє арифметичне.
AM(X)=(X1+X2+…+Xn)n
AM - це те, що оцінюється за допомогою OLS та нетрансформованих змінних. Середнє геометричне значення різне:
GM(X)=(X1×X2×…×Xn)−−−−−−−−−−−−−−−−−√n=exp(AM(log(X))
Практично різниця в ГМ - це мультипликативна різниця: ви берете на сплату відсотків X% премії, приймаючи позику, рівень гемоглобіну зменшується на X% після запуску метформіну, рівень відмови пружин збільшується на X% як частка ширини. У всіх цих випадках сира середня різниця має менше сенсу.
Перетворення журналу оцінює середню геометричну різницю. При вході в системі перетворення результату і змоделювати його в лінійної регресії , використовуючи наступну формулу специфікацію: log(y) ~ x
коефіцієнт є середньою різницею результатів журналу порівняння сусідніх одиниць . Це практично марно, тому ми експонуємо параметр і інтерпретуємо це значення як середню геометричну різницю. X e β 1β1Xeβ1
Наприклад, у дослідженні вірусного навантаження на ВІЛ після введення АРТ за 10 тижнів, ми могли б оцінити середнє значення геометрії передпостового . Це означає, що незалежно від того, що вірусне навантаження було на початковій лінії, воно було в середньому на 60% нижче або зменшилось у 0,6 рази під час спостереження. Якби навантаження було 10 000 на базовій лінії, моя модель передбачала б, що вона буде 4000 при подальшому спостереженні, якщо вона буде 1000 на базовій лінії, моя модель передбачає, що вона буде 400 при подальшому спостереженні (менша різниця в масштабі сировини, але пропорційно однакові).eβ1=0.40
Це важлива відмінність від інших відповідей : Конвенція про множення коефіцієнта лог-шкали на 100 походить від наближення коли малий. Якщо коефіцієнт (за логарифмічною шкалою) , це сказати 0,05, то і інтерпретація: 5% «збільшення» в результатах для 1 одиниці «збільшення» в . Однак, якщо коефіцієнт дорівнює 0,5 , то , і ми інтерпретувати це як «збільшення» 65% в для 1 одиницю «збільшення» в . Це НЕ 50% збільшення.X exp ( 0,05 ) ≈ 1,05 X exp ( 0,5 ) = 1,65 Y Xlog(x)≈1−xXexp(0.05)≈1.05Xexp(0.5)=1.65YX
Припустимо , що ми реєструємо перетворення провісник: y ~ log(x, base=2)
. Тут мене цікавить мультипликативна зміна а не сурова різниця. Я зараз цікавить порівняння учасників , що відрізняються по 2 рази в . Припустимо, наприклад, мене цікавить вимірювання інфекції (так / ні) після впливу збудника крові, що переноситься в крові в різних концентраціях, використовуючи модель адитивного ризику. Біологічна модель може припускати, що ризик збільшується пропорційно для кожного подвоєння концентрації. Тоді я не перетворюю свій результат, але розрахунковий коефіцієнт трактується як різниця ризику, порівнюючи групи, виявлені при двократних різницях концентрації інфекційного матеріалу.X β 1xXβ1
Нарешті, log(y) ~ log(x)
просто застосовується обидва визначення, щоб отримати мультиплікативну різницю, порівнюючи групи, що різняться мультиплікативно за рівнями експозиції.