Коли в лінійній регресії доцільно використовувати журнал незалежної змінної замість фактичних значень?


164

Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?


1
Ви запитуєте про те, як зменшити ефект переживачів чи коли використовувати журнал якоїсь змінної?
Бенджамін Баньє

23
Я думаю, що ОП говорить: "Я чув, щоб люди використовували журнал вхідних змінних: чому вони роблять це?"
Шейн

Чому саме колоди? Чи не повинно це питання стосуватися будь-якої техніки перетворення даних, яка може бути використана для мінімізації залишків, пов'язаних з mx + b?
AsymLabs

1
@AsymLabs - Журнал може бути особливим у регресії, оскільки це єдина функція, яка перетворює продукт у підсумок.
ймовірністьілогічний

12
Попередження читачам: Питання задає питання про трансформацію ІV, але, як видається, деякі відповіді говорять про причини перетворення ДВ. Не вводьте в оману думки, що все це також є причиною трансформації IV - деякі можуть бути, інші, безумовно, ні. Зокрема, розподіл IV загалом не має значення (дійсно, граничний розподіл ДВ також не є).
Glen_b

Відповіді:


168

Я завжди вагаюся стрибнути в нитку із такою кількістю відмінних відповідей, як це, але мені вражає, що мало хто з відповідей дає будь-яку причину віддавати перевагу логарифму перед якоюсь іншою трансформацією, яка "стискає" дані, наприклад, корінь або зворотній зв'язок.

Перш ніж дійти до цього, давайте переосмислимо мудрість у існуючих відповідях більш загальним способом. Деяке нелінійне повторне вираження залежної змінної вказується, коли застосовується будь-яке з наведеного нижче:

  • Залишки мають косий розподіл. Мета трансформації - отримати залишки, які приблизно симетрично розподілені (звичайно, приблизно до нуля).

  • Поширення залишків систематично змінюється зі значеннями залежної змінної ("гетеросцедастичність"). Мета трансформації - усунути ту систематичну зміну поширення, досягнувши приблизної "гомоскедастичності".

  • Лінеаризувати відносини.

  • Коли наукова теорія вказує. Наприклад, хімія часто пропонує виражати концентрації як логарифми (надання активності або навіть загальновідомого рН).

  • Коли більш туманна статистична теорія пропонує залишкам відображати "випадкові помилки", які не накопичуються адитивно.

  • Для спрощення моделі. Наприклад, іноді логарифм може спростити кількість і складність термінів "взаємодії".

(Ці вказівки можуть суперечити один одному; у таких випадках необхідне судження.)

Отже, коли конкретно вказаний логарифм замість якогось іншого перетворення?

  • Залишки мають "сильно" позитивно перекошений розподіл. У своїй книзі про EDA Джон Тукі подає кількісні способи оцінити трансформацію (всередині сімейства Box-Cox, або владу, перетворення) на основі статистичних даних про залишки. Це дійсно зводиться до того, що якщо взяття журналу симетризує залишки, можливо, це була правильна форма повторного вираження; в іншому випадку потрібне якесь інше повторне вираження.

  • Коли SD залишків прямо пропорційно встановленим значенням (а не деякій потужності встановлених значень).

  • Коли відносини близькі до експоненціальних.

  • Коли вважається, що залишки відображають помилки, що накопичують мультипликативно.

  • Вам дуже потрібна модель, в якій граничні зміни пояснювальних змінних інтерпретуються через мультиплікативні (відсоткові) зміни залежної змінної.

Нарешті, деякі не є - причини використовувати повторне вираз :

  • Зробити позашляховиків не схожими на людей, що вижили. Зовнішній вигляд - це дата, яка не відповідає деякому парсимонічному порівняно простому опису даних. Зміна опису, щоб покращити вигляд людей, як правило, є неправильним відміною пріоритетів: спочатку отримайте науково обгрунтований, статистично хороший опис даних, а потім вивчіть будь-які люди. Не дозволяйте випадковим людям визначати, як описати решту даних!

  • Тому що програмне забезпечення автоматично це зробило. (Достатньо сказано!)

  • Тому що всі дані є позитивними. (Позитивність часто передбачає позитивну косисть, але цього не потрібно. Крім того, інші перетворення можуть працювати краще. Наприклад, корінь часто найкраще працює з переліченими даними.)

  • Зробити "погані" дані (можливо, низької якості) добре.

  • Щоб мати змогу побудувати дані. (Якщо перетворення необхідно , щоб мати можливість побудувати дані, ймовірно , це необхідно для одного або більше вагомих причин вже згадуваних Якщо єдина причина для перетворення дійсно для креслення, йти вперед і робити це. - але тільки для побудови Дані. Залиште дані неперероблені для аналізу.)


1
А як щодо таких змінних, як щільність населення в регіоні чи співвідношення дітей-вчителів для кожного шкільного округу чи кількість вбивств на 1000 населення? Я бачив, як професори беруть журнал цих змінних. Мені незрозуміло, чому. Наприклад, хіба відсоток вбивств вже не є відсотком? У журналі буде відсоткова зміна ставки? Чому варто віддати перевагу журналу співвідношення дитина-вчитель? Чи слід приймати перетворення журналу для кожної безперервної змінної, коли немає основної теорії про справжню функціональну форму?
користувач1690130

1
@JG Малі співвідношення мають тенденцію до перекосів розподілу; логарифми та корені, ймовірно, роблять їх більш симетричними. Я не розумію ваших питань, пов’язаних із відсотками: можливо, ви плутаєте різні способи використання відсотків (один, щоб виразити щось у пропорції в цілому, а інший для вираження відносної зміни)? Я не вірю, що я написав щось, що виступає за те, щоб логарифми завжди застосовувалися - далеко не це! Тож я не розумію основи вашого останнього запитання.
качан

2
"Коли вважається, що залишки відображають помилки, що накопичують мультиплікативно". У мене виникають проблеми з тлумаченням цієї фрази. Чи можна це трохи розібрати з іншим реченням чи двома? Яке скупчення ви маєте на увазі?
Хатшепсут

@ user1690130 для співвідношень і густини, вони, як правило, повинні бути встановлені як розподіл на сімейство пуассонів для підрахунків із зміщенням експозиції. Наприклад, кількість людей - це кількість, а компенсація - область регіону. Дивіться це запитання для гарного пояснення - stats.stackexchange.com/questions/11182/…
Майкл Бартон

2
@Hatshepsut простим прикладом помилково накопичувальних помилок буде об'єм як залежна змінна та помилки при вимірюванні кожного лінійного виміру.
abalter

73

Я завжди кажу студентам, що є три причини перетворити змінну, приймаючи природний логарифм. Причина реєстрації змінної визначатиме, чи потрібно реєструвати незалежну змінну (и), залежну або обох. Щоб було зрозуміло протягом усього часу, я говорю про прийняття природного логарифму.

По-перше, для поліпшення розміщення моделі, як відзначали інші афіші. Наприклад, якщо ваші залишки зазвичай не розподіляються, то прийняття логарифму перекошеної змінної може покращити пристосування, змінивши масштаб і зробивши змінну більш "нормально" розподіленою. Наприклад, заробіток скорочується на нулі і часто виявляється позитивним перекосом. Якщо змінна має негативне перекос, ви можете спочатку інвертувати змінну, перш ніж приймати логарифм. Я думаю тут, зокрема, про шкали Лікерта, які враховуються як постійні змінні. Хоча це зазвичай стосується залежної змінної, у вас періодично виникають проблеми із залишками (наприклад, гетеросцедастичність), викликаними незалежною змінною, яку іноді можна виправити, взявши логарифм цієї змінної. Наприклад, при застосуванні моделі, яка пояснювала оцінювання лектора на наборі лекторів і класів, коваріативні змінна "розмір класу" (тобто кількість студентів на лекції) мала відшарування, що викликало гетероседастичність, оскільки відхилення в оцінках лектора було меншим і більшим когорти, ніж менші. Реєстрація змінної студента допомогла б, хоча в цьому прикладі або обчислення надійних стандартних помилок або використання зважених найменших квадратів може полегшити тлумачення.

β β

β

β

β100

β/100

І нарешті, для цього може бути теоретична причина. Наприклад, деякі моделі, які ми хотіли б оцінити, є мультиплікативними і тому нелінійними. Прийняття логарифмів дозволяє оцінити ці моделі за лінійною регресією. Хорошими прикладами цього є виробнича функція Кобба-Дугласа в економіці та рівняння Мінькера в освіті. Функція виробництва Кобба-Дугласа пояснює, як входи перетворюються на виходи:

Y=ALαKβ

де

Y

A

L

K

αβ

Прийняття логарифмів цього полегшує оцінку функції, використовуючи лінійну регресію OLS як таку:

log(Y)=log(A)+αlog(L)+βlog(K)

5
"Log Y і X - збільшення на 1 одиницю X призведе до β ∗ 100% збільшення / зменшення Y": Я думаю, це застосовується лише тоді, коли β малий, так що exp (β) ≈ 1 + β
Ida

1
приємно і ясно дякую! Одне запитання, як ви інтерпретуєте перехоплення у випадку Log Y і X? і взагалі мене турбує питання про те, як повідомляти про регресії, що трансформуються в журналі ...
Bakaburg

2
Я засмоктую відповіді, які містять приклади з Економіки ["Ви мене мали на" Функції виробництва Кобба-Дугласа ""] .... Однак одне: Ви повинні змінити термін перехоплення у другому рівнянні, щоб увійти (A ), щоб вона відповідала першому рівнянню.
Steve S

100×(eβ1)

21

Докладніше про чудову позицію Уубера про причини віддати перевагу логарифму перед деякими іншими перетвореннями, такими як кореневі або зворотні, але зосередившись на унікальній інтерпретації коефіцієнтів регресії, що є результатом перетворення журналу порівняно з іншими перетвореннями, див:

Олівер Н. Кін. Перетворення журналу особливе. Статистика в медицині 1995 р .; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF із сумнівною законністю доступний за посиланням http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).

Якщо ви записуєте незалежну змінну x до бази b , ви можете інтерпретувати коефіцієнт регресії (і CI) як зміну залежної змінної y на b- кратне збільшення x . (Отже, журнали до бази 2 часто корисні, оскільки відповідають зміні y на подвоєння у x , або журнали до бази 10, якщо x змінюється на багато порядків, що рідше). Інші перетворення, наприклад квадратний корінь, не мають такої простої інтерпретації.

Якщо ви записуєте залежну змінну y (не оригінальне запитання, а те, на яке було звернуто кілька попередніх відповідей), я вважаю, що ідея Тіма Коула про "симпертенти" є привабливою для представлення результатів (я навіть їх використовував у статті один раз), хоча вони, схоже, не зачепилися за все так широко:

Тім Дж Коул. Симптоми: симетричні відсоткові різниці за шкалою 100 log (e) спрощують подання даних, перетворених журналом. Статистика в медицині 2000 р .; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Я дуже радий, що Stat Med перестав використовувати SICI, як DOI ...]


1
Дякую за довідку та дуже хороші бали. Питання, що цікавить, чи стосується це питання всіх перетворень, а не лише журналів. Для нас статистика / ймовірність корисна, оскільки дозволяє ефективно прогнозувати ефективність чи ефективні критерії / настанови. Протягом багатьох років ми використовували силові перетворення (журнали іншою назвою), поліноміальні перетворення та інші (навіть кусочні перетворення), щоб спробувати зменшити залишки, посилити довірчі інтервали та в цілому покращити можливості прогнозування із заданого набору даних. Ми зараз говоримо, що це неправильно?
AsymLabs

1
@AsymLabs, наскільки окремими є дві культури Бреймана (орієнтовно прогноктори та модельєри)? Ср. Дві культури - спірні.
denis

15

Зазвичай береться журнал вхідної змінної для масштабування її та зміни розподілу (наприклад, для нормального розподілу). Однак це неможливо зробити наосліп; Ви повинні бути обережними під час будь-якого масштабування, щоб гарантувати, що результати все ще інтерпретуються.

Про це йдеться у більшості вступних текстів статистики. Ви також можете прочитати статтю Ендрю Гелмана на тему "Масштабування регресії введеннями шляхом поділу на два стандартних відхилення" для обговорення цього питання. Він також дуже приємно обговорив це питання на початку "Аналіз даних за допомогою регресії та багаторівневих / Ієрархічних моделей" .

Введення журналу не є підходящим методом боротьби з поганими даними / видавцями.


12

Ви схильні приймати журнали даних, коли є проблеми із залишками. Наприклад, якщо побудувати залишки проти певного коваріату і спостерігати зростаючий / зменшується візерунок (форма воронки), то трансформація може бути доречною. Невипадкові залишки зазвичай вказують на те, що ваші припущення щодо моделі неправильні, тобто ненормальні дані.

Деякі типи даних автоматично піддаються логарифмічним перетворенням. Наприклад, я зазвичай беру журнали, коли маю справу з концентрацією або віком.

Незважаючи на те, що перетворення в основному не використовуються для боротьби з інвалідами, вони допомагають, оскільки реєстрація журналів розсипає ваші дані.


1
Але все ж, використовуючи журнал, змінюється модель - для лінійної регресії це y ~ a * x + b, для лінійної регресії на log це y ~ y0 * exp (x / x0).

1
Я згоден - прийнявши журнал змінює вашу модель. Але якщо вам доведеться трансформувати свої дані, це означає, що ваша модель в першу чергу не підходила.
csgillespie

2
@cgillespie: Концентрації, так; але вік? Це дивно.
whuber

@whuber: Я вважаю, що це дуже залежить від даних, але використовувані нами набори даних ви побачите велику різницю між віком від 10 до 18 років, але невеликою різницею між 20 та 28 роками. Навіть для маленьких дітей різниця у віці 0-1 років не така, як різниця між 1-2.
csgillespie

1
@landroni Це коротко сформульовано. Я б не сказав, що це погано, за винятком випадків, коли "напр." Було призначено замість "тобто" я розумію використання "випадкових" тут у значенні "незалежних і ідентично розподілених", що справді є найбільш загальним припущенням, припускається OLS. У деяких установах люди додатково вважають, що цей загальний базовий розподіл є нормальним, але це не є строго необхідним на практиці або теоретично: все, що потрібно, - це те, щоб вибіркові розподіли відповідної статистики були близькими до нормальних.
whuber

10

XXX

XXX3rmsXx

require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f))  # plot spline of cr(X) against X

X3X


E[Y|X]=f(X)

9

Я хотів би відповісти на запитання користувача1690130, яке було залишене як коментар до першої відповіді 26 жовтня 12 року і було наступне: "Як щодо змінних, таких як щільність населення в регіоні або співвідношення дітей-викладачів для кожного шкільного округу чи кількість вбивств на 1000 населення? Я бачив, як професори беруть журнал цих змінних. Мені не ясно, чому. Наприклад, чи не вбивство вже є відсотком? У журналі буде відсоткове зміна ставка? Чому б краще віддати перевагу журналу співвідношення дитина-вчитель? "

Я шукав відповіді на подібну проблему і хотів поділитися тим, що про це говорить мій старий навчальний посібник з статистики ( Джефрі Вулдрідж. 2006. Вступна економетрія - сучасний підхід, 4-е видання. Розділ 6 Множинний регресійний аналіз: подальші проблеми. 191 ). Вулдрідж радить:

Змінні, які відображаються у пропорційній чи відсотковій формі, такі як рівень безробіття, рівень участі у пенсійному плані, відсоток студентів, які здають стандартизований іспит, та рівень арешту за зареєстрованими злочинами - можуть відображатися як у оригінальній, так і логарифмічній формі , хоча є тенденція до використання їх у рівних формах . Це пояснюється тим, що будь-які коефіцієнти регресії, що включають початкову змінну - незалежна вона чи незалежна змінна, - матимуть інтерпретацію зміни процентного пункту. Якщо ми використовуємо, скажімо, log ( unem ) в регресії, де unem є відсотком безробітних, ми повинні бути дуже обережними, щоб розрізняти зміну процентного пункту та відсоткові зміни. Пам’ятайте, якщо унемйде від 8 до 9, це збільшення на один відсотковий пункт, але збільшення на 12,5% від початкового рівня безробіття. Використання журналу означає, що ми дивимось на відсоткові зміни рівня безробіття: log (9) - log (8) = 0,118 або 11,8%, що є логарифмічним наближенням до фактичного збільшення на 12,5%.

Виходячи з цього і підробляючи коментарі на попередній коментар Ваубера до запитання користувача1690130, я б уникнув використання логарифму змінної щільності або відсоткової ставки, щоб інтерпретація була простою, якщо використання форми журналу не призвело до значних компромісів, таких як можливість зменшити спотвореність щільності або змінна ставка.


Часто для відсотків (тобто пропорцій на (0,1) використовується перетворення logit. Це тому, що пропорційні дані часто порушують припущення про нормальність залишків, таким чином, перетворення журналу не виправиться.
colin

3

Шейн вважає, що прийняття журналу для боротьби з поганими даними добре прийнято. Як і Колін щодо важливості нормальних залишків. На практиці я вважаю, що зазвичай можна отримати нормальні залишки, якщо змінні вводу та виходу також відносно нормальні. На практиці це означає очне яблуко розподілу трансформованих і нетрансформованих наборів даних та впевненість у собі, що вони стали більш нормальними та / або проводять тести на нормальність (наприклад, тести Шапіро-Вілка або Колмогорова-Смірнова) та визначати, чи є результат більш нормальним. Важлива також інтерпретабельність і традиція. Наприклад, у когнітивній психології часто застосовуються трансформації часу реакції, однак, щонайменше, мені трактування журналу RT незрозуміле. Крім того,


2
Відповіді будуть упорядковані на основі голосів, тому намагайтеся не посилатися на інші відповіді.
Вебйорн Льоса

4
Тест на нормальність, як правило, занадто суворий. Часто достатньо отримати симетрично розподілені залишки. (На практиці залишки мають, як правило, сильний пік розподілу, частково як артефакт оцінки, який я підозрюю, і тому буде перевірятися як "значно" ненормальний незалежно від того, як повторно виражають дані.)
whuber

@whuber: Погоджено. Ось чому я вказав "стати більш нормальним". Метою має бути оглядання статистики тесту на зміни, а не прийняття / відхилення рішення на основі p-значення тесту.
russellpierce

ВЖЕ СТАЛИ посилатися на інші відповіді, якщо це доречно!
abalter

@abalter? Я не стежу за цим.
russellpierce
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.