Лінійна модель з перетвореною на логарифмічну реакцію проти узагальненої лінійної моделі з логічним зв'язком


46

У цій статті під назвою "ВИБОРИ УЗАГАЛЬНЕНИХ ЛІНІЙНИХ МОДЕЛІВ, ЗАСТОСОВАНИХ ДО МЕДИЧНИХ ДАНИХ", автори пишуть:

У узагальненій лінійній моделі середнє перетворюється функцією зв’язку замість самої реакції. Два способи трансформації можуть призвести до зовсім різних результатів; наприклад, середнє значення log-трансформованих відповідей не те саме, що логарифм середньої відповіді . Взагалі, колишнього неможливо легко перетворити на середню відповідь. Таким чином, перетворення середини часто дозволяє простіше інтерпретувати результати, тим більше, що середні параметри залишаються на тій же шкалі, що і вимірювані відповіді.

Здається, вони радять підходити до узагальненої лінійної моделі (GLM) з посиланням на журнал замість лінійної моделі (LM) з перетвореною характеристикою журналу. Я не розумію переваг такого підходу, і мені це здається досить незвичним.

Моя змінна відповідь виглядає як правило, розподілена журналом. Я отримую подібні результати щодо коефіцієнтів та їх стандартних помилок при будь-якому підході.

І все-таки мені цікаво: Якщо змінна має нормальний розподіл журналу, чи не середнє значення змінної, що перетворюється на журнал, є кращим перед журналом середньої неперетвореної змінної , оскільки середнє значення є природним підсумком нормального розподілу та журналом -трансформована змінна зазвичай розподіляється, тоді як сама змінна ні?


3
Я погоджуюся з вашою підказкою, якщо у нас є розподілена змінна за нормальним журналом. Однак середнє значення потрібно "переробити назад", щоб отримати легко зрозумілу статистику на основі вихідного масштабу даних. Це може пояснити висновок статті. Крім того, після журнальної трансформації ми можемо не отримати нормально розподіленої змінної, і в цьому випадку я не знаю, який підхід був би кращим.
soufanom

Відповіді:


46

Хоча може здатися, що середнє значення змінних, що перетворюються на журнал, є кращим (оскільки, як правило, параметризується нормальний журнал), з практичної точки зору журнал середнього значення, як правило, набагато корисніший.

Це особливо актуально, коли ваша модель не зовсім коректна, і, щоб процитувати Джорджа Бокса: "Усі моделі неправильні, деякі корисні"

Припустимо, якась кількість звичайно розподіляється, артеріальний тиск скаже (я не медик!), І у нас є дві групи, чоловіки та жінки. Можна припустити, що середній артеріальний тиск у жінок вище, ніж у чоловіків. Це точно відповідає питанню, чи вище середній показник артеріального тиску у жінок, ніж у чоловіків. Це не те саме, що запитувати, чи є середній показник артеріального тиску в лог вище у жінок, ніж у чоловіка .

μln

μ=eμln+σln2/2

σ2=(eσln21)e2μln+σln2

Очевидно, що це робить алгебру жахливо складною, але вона все одно працює і означає те саме.

ln(μ)σln2μln

μln

Поки ми припускали, що артеріальний тиск суттєво не є нормальним. Якщо справжні дистрибутиви не зовсім нормальні для журналу, то перетворення даних (як правило) може зробити ще гірше, ніж вище - оскільки ми не будемо точно знати, що насправді означає наш "середній" параметр. Тобто ми не будемо знати, що ці два рівняння для середньої і дисперсії, які я подав вище, є правильними. Якщо використовувати їх для перетворення вперед і назад, то введе додаткові помилки.


Я вважаю це дуже корисним: christoph-scherber.de/content/PDF%20Files/…
Aditya

2
Короне, я виділив у вашій відповіді два важливі речення. Сподіваюся, ви не заперечуєте. Будь ласка, відкатуйтесь, якщо ви не згодні.
Стефан

17

Ось два мої центи з передового курсу аналізу даних, який я взяв під час вивчення біостатистики (хоча я не маю жодних посилань, крім записок мого професора):

Це зводиться до того, чи потрібно вирішувати лінійність та гетероседастичність (неоднакові дисперсії) у ваших даних чи просто лінійність.

Вона зазначає, що трансформація даних впливає як на припущення щодо лінійності, так і дисперсії моделі. Наприклад, якщо у ваших залишків виникають проблеми з обома, ви можете розглянути можливість перетворення даних, що потенційно може виправити обидва. Перетворення трансформує помилки і, отже, їх дисперсію.

Навпаки, використання функції зв’язку впливає лише на припущення про лінійність, а не на дисперсію. Журнал приймається середнім (очікуваним значенням), і, таким чином, дисперсія залишків не впливає.

Підсумовуючи це, якщо у вас немає проблеми з непостійною дисперсією, вона пропонує використовувати функцію посилання для перетворення, оскільки ви не хочете змінювати свою дисперсію в цьому випадку (ви вже зустрічаєтесь з припущенням).


6
Хоча функція зв'язку впливає лише на середнє значення, функція зв'язку є лише однією частиною GLM. Ваші коментарі працюють для Gaussian glm з посиланням на журнал. Гамма - GLM з лог посилання матимуть однакову дисперсію-функцію припущення (дисперсії пропорційна среднеквадратическая) в якості прологаріфміровав і підгонка постійну дисперсію на цій логарифмічною шкалою. Інші сім’ї в рамках GLM матимуть інші функції дисперсії. На жаль, таблиця на сторінці вікіпедії для GLM не містить функцій дисперсії для сімей розподілу, які вона дає.
Glen_b

2
Вони згадують деякі приклади тут , хоча. Ось гамма
Glen_b

-1

Якщо відповідь справжня не симетрична (не розподіляється як нормальна), але реакція на перетворений журнал є нормальною, тоді застосовується лінійна регресія на трансформовану відповідь, а коефіцієнт показника дає нам співвідношення середнього геометричного.

Якщо відповідь справжня симетрична (розподілена як нормальна), але відношення між пояснювальною (X) та відповіддю не є лінійною, але очікуване значення журналу є лінійною функцією X, тоді використовується GLM з логічним посиланням, а коефіцієнт показника дає нам відношення середнього арифметичного


Ця відповідь не зрозуміла. Ви мали на увазі "змінну", а не "справжню"?
Майкл Черник

Це фрагмент відповіді. Потрібно чітко пояснити, як це стосується питання і на чому насправді ґрунтується відповідь на запитання.
ReneBt
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.