У чому причина трансформації журналу використовується при розподілених праворуч розподілах?


18

Я колись це чув

Перетворення журналу є найпопулярнішим для прямокосових розподілів у лінійній регресії чи квантильній регресії

Хотілося б знати, чи є якась причина, що лежить в основі цього твердження? Чому перетворення журналу придатне для прямокутного розподілу?

Як щодо розповсюдження лівої косою?

Відповіді:


26

Економісти (як я) люблять перетворення журналу. Особливо ми любимо це в регресійних моделях, таких як:

lnYi=β1+β2lnХi+ϵi

Чому ми так любимо його? Ось перелік причин, які я даю студентам, читаючи лекції з цього приводу:

  1. Він поважає позитивність . У багатьох випадках у реальному застосуванні в економіці та інших країнах Y за своєю природою є позитивним числом. Це може бути ціна, ставка податку, кількість виробленої продукції, собівартість продукції, витрати на якусь категорію товарів тощо. Прогнозовані значення від непереробленої лінійної регресії можуть бути негативними. Передбачувані значення регресії, перетвореної в журналі, ніколи не можуть бути негативними. Вони Y J = ехр ( β 1 + β 2 пров Х J )1YY(Дивітьсяпопередню відповідь моєїщодо отримання).Y^j=досвід(β1+β2lnХj)1Nдосвід(еi)
  2. Функціональна форма журналу журналу напрочуд гнучка. Зверніть увагу: Що дає нам: Це багато різних форм. Лінія (ухил якої визначався б якexp ( β 1 ) , так що може мати будь-який позитивний нахил), гіпербола, парабола та "квадратно-коренеподібна" форма. Я намалював це за допомогоюβ1=0іϵ=0, але в реальному застосуванні жодне з них не було б істинним, так що нахил і висота кривих приX=
    lnYi=β1+β2lnХi+ϵiYi=досвід(β1+β2lnХi)досвід(ϵi)Yi=(Хi)β2досвід(β1)досвід(ϵi)
    Люблячі журнали-функціональні формидосвід(β1)β1=0ϵ=0 буде контролюватися тими, а не встановленими в 1.X=1
  3. Як згадує TrynnaDoStat, форма журналу журналу "втягує" великі значення, що часто робить дані легшими для перегляду та іноді нормалізує відхилення в спостереженнях.
  4. Коефіцієнт трактується як пружність. Це процентне збільшення Y від збільшення на один відсоток X .β2YX
  5. Якщо - фіктивна змінна, ви включаєте її без реєстрації. У цьому випадку β 2 - відсоткова різниця Y між категорією X = 1 і категорією X = 0 .Xβ2YX=1X=0
  6. Якщо час , то знову його включаєте, не записуючи його, як правило. У цьому випадку β 2 - це темп зростання у Y ---, виміряний у будь-який час вимірюється одиниці X. Якщо X років, то, наприклад, коефіцієнт - річний темп приросту у Y , наприклад.Xβ2YXXY
  7. Коефіцієнт нахилу стає інваріантним за шкалою. Це означає, з одного боку, що у нього немає одиниць, а з іншого - що якщо ви перемальовуєте (тобто змінюєте одиниці) X або Y , це не матиме абсолютно ніякого впливу на оцінене значення β 2 . Ну, принаймні, з OLS та іншими пов'язаними оцінками.β2XYβ2
  8. Якщо ваші дані звичайно поширюються, то перетворення журналу робить їх нормально розподіленими. Зазвичай, розповсюджені дані мають багато.

Зазвичай статистики вважають економістів надто захопленими саме цією трансформацією даних. Я думаю, це тому, що вони вважають, що мій пункт 8 та друга половина мого пункту 3 є дуже важливими. Таким чином, у випадках, коли дані звичайно не поширюються в журналі або коли реєстрація даних не призводить до того, що трансформовані дані мають однакову різницю між спостереженнями, статистик, як правило, не дуже сподобається перетворенню. Економіст, швидше за все, піде вперед, оскільки те, що нам справді подобається в трансформації, - це пункти 1,2 та 4-7.


7
Це стандартні моменти, але дуже добре, щоб вони були зібрані стисло. Багато облікових записів охоплюють лише деякі з цих моментів. Невеликий сенс: я вважаю, що ваш контраст між поглядами економістів та позиціями статистиків трохи переборщив. Наприклад, важливість зв’язку над сімейством помилок пояснюється узагальненою літературою лінійної моделі, хоча це може робити і з більшою сумарністю. Кін, Олівер Н. 1995. Перетворення журналу особливе. Статистика в медицині 14: 811-819. DOI: 10.1002 / sim.4780140810 - ще один приклад.
Нік Кокс

21

Спочатку давайте подивимося, що зазвичай відбувається, коли ми беремо журнали про те, що є правильним перекосом.

У верхньому рядку містяться гістограми для зразків із трьох різних, дедалі більше косих розподілів.

У нижньому рядку містяться гістограми для їх журналів.

enter image description here

Видно, що центральний випадок ( y ) перетворений на симетрію, тоді як більш м'який правий випадок ( x ) тепер дещо лівий косий. З іншого боку, найбільш змінна зміна ( z ) все ще є (злегка) правим перекосом, навіть після взяття журналів.

Якщо ми хотіли, щоб наші дистрибуції виглядали нормальніше, перетворення, безумовно, покращили другий і третій випадок. Ми можемо побачити, що це може допомогти.


То чому це працює?

Зауважте, що дивлячись на зображення форми розподілу, ми не розглядаємо середнє або стандартне відхилення - це лише впливає на мітки на осі.

Таким чином, ми можемо уявити, як дивитися на якісь "стандартизовані" змінні (залишаючись позитивними, усі мають схоже розташування та поширення, скажімо)

Взяття журналів "тягне" більш екстремальні значення праворуч (високі значення) відносно медіани, тоді як значення в крайній лівій частині (низькі значення), як правило, відтягуються назад, далі від медіани.

enter image description here

xyz

y

Але коли ми беремо колоди, вони повертаються назад до медіани; після взяття журналів це лише приблизно 2 міжквартильні діапазони над медіаною.

Тим часом низьке значення, як 30 (лише 4 значення в вибірці розміром 1000 нижче), є трохи меншим, ніж один міжквартильний діапазон нижче медіани y

enter image description here

Не випадково співвідношення 750/150 і 150/30 є і 5, коли і log (750), і log (30) закінчилися приблизно на однаковій відстані від медіани log (y). Ось так працюють журнали - перетворюють постійні співвідношення в постійні різниці.

Не завжди буває так, що журнал помітно допоможе. Наприклад, якщо взяти скажімо лонормальну випадкову величину і істотно змістити її вправо (тобто додати до неї велику константу), щоб середнє значення стало великим відносно стандартного відхилення, то прийняття журналу цього значення мало б мало значення для форма. Було б менше косо - але ледве.


Але інші перетворення - квадратний корінь, кажуть, - також матимуть великі значення. Чому, зокрема, журнали користуються більшою популярністю?

Я торкнувся однієї причини лише наприкінці попередньої частини - постійні співвідношення мають тенденцію до постійних відмінностей. Це робить журнали відносно простими для інтерпретації, оскільки постійні зміни відсотків (як збільшення на 20% для кожного з набору чисел) стають постійними змінами. Так зменшення0.162

Наприклад, велика кількість економічних та фінансових даних (постійний або майже постійний вплив на процентну шкалу). Шкала журналу має в цьому випадку багато сенсу. Більше того, в результаті цього ефекту в масштабі відсотків. поширення значень має тенденцію бути більшим, оскільки середня величина збільшується - а взяття журналів також має тенденцію до стабілізації розповсюдження. Зазвичай це важливіше, ніж нормальність. Дійсно, всі три розподіли в початковій діаграмі походять із сімей, де стандартне відхилення зросте із середнім значенням, і в кожному випадку взяття журналів стабілізує дисперсію. [Однак це не відбувається з усіма правильними перекошеними даними. Це просто дуже часто зустрічається в даних даних, які з'являються в певних областях застосування.]

Бувають і випадки, коли квадратний корінь зробить речі більш симетричними, але це, як правило, відбувається з менш косими розподілами, ніж я використовую в своїх прикладах тут.

Ми могли б (досить легко) побудувати ще один набір із трьох м'яких правоприкладних прикладів, де квадратний корінь робив один лівий косий, один симетричний, а третій - ще праворукий (але трохи менше перекосу, ніж раніше).


А як щодо дистрибуторів з лівою косою?

Якщо ви застосували перетворення журналу до симетричного розподілу, воно, як правило, зробить його лівим нахилом з тієї ж причини, що часто робить правий косий ще один симетричний - дивіться відповідну дискусію тут .

Відповідно, якщо застосувати трансформацію журналу до чогось, що вже залишилося перекошеним, воно, як правило, зробить його ще більше лівим перекосом, ще сильніше підтягуючи речі над медіаною і ще сильніше розтягуючи речі нижче медіани вниз.

Тож трансформація журналу тоді не була б корисною.

Дивіться також силові перетворення / сходи Тукі. Розподіл, що залишився нахилом, може бути більш симетричним, взявши силу (більша за 1 - скажучи квадрати), або шляхом експоненції. Якщо вона має очевидну верхню межу, можна відняти спостереження від верхньої межі (даючи правильний перекошений результат), а потім спробувати її перетворити.


Дякую Glen_b за чудову відповідь. Ви даєте нам емпіричні дані для ілюстрації, а потім даєте інтуїтивне пояснення, чому / як працює ця трансформація. Цінується.
Рам

5

Функція журналу, по суті, знецінює дуже великі значення. Подивіться на зображення, яке нижче показаноу=лн(х). Зауважте, як великі значення нах-осі відносно менші на осі у.

http://www.librow.com/content/common/images/articles/article-11/graph-ln.gif

Тепер у правильному перекошеному розподілі ви маєте кілька дуже великих значень. Перетворення журналу, по суті, переводить ці значення в центр розподілу, роблячи його схожим на нормальне розподіл.


1

Усі ці відповіді - це продажі для природного перетворення журналу. Існують застереження щодо його використання, застереження, які узагальнюють для будь-яких та всіх перетворень. За загальним правилом, всі математичні перетворення перетворюють PDF в основні вихідні змінні, незалежно від того, чи діють на стиснення, розширення, інвертування, масштабування будь-якого іншого. Найбільшою проблемою, яку представляє суто практична точка зору, є те, що при використанні в регресійних моделях, де прогнози є ключовим результатом моделі, перетворення залежної змінної, Y-hat, піддаються потенційно значним зміщенням ретрансформації. Зауважте, що природні перетворення журналу не захищені від цього зміщення, вони просто не настільки впливають на нього, як деякі інші, подібні діючі перетворення. Є документи, які пропонують рішення для цього упередження, але вони справді не дуже добре працюють. На мою думку, ти перебуваєш на набагато безпечнішому ґрунті, взагалі не псуєшся, намагаючись перетворити Y і знайти надійні функціональні форми, які дозволяють зберегти початковий показник. Наприклад, крім природного журналу, є й інші перетворення, що стискають хвіст перекошених та куртозних змінних, таких як зворотний гіперболічний синус або Ламбертова В. Обидва цих перетворень працюють дуже добре в створенні симетричних PDF - файлів , і, отже, Gaussian подібні помилки, на основі інформації з важкими хвостами, але стежити за упередженість при спробі принести передбачення назад у вихідний масштаб для DV, Y . Це може бути некрасиво.


3
Здається, це в кінцевому підсумку зосереджено на тому, що робити з важкохвостими розподілами (під куртозом мається на увазі володіння високим куртозом). Я думаю, вам потрібно прописати, як це стосується питання. Аналогічно, як у ЛамбертаWстосується питання не ясно. Я не розумію, як зміщення трансформації є менш можливою проблемою для логарифмічної трансформації, ніж для споріднених перетворень (які? Наприклад, проміжний між дією між квадратним коренем і зворотним.
Нік Кокс

3
Усі ми покладаємо протидії на різні аспекти правил, але багато хто з нас продовжують взаємодіяти тут, тому що ми побачили їх мудрість і знайшли конструктивні способи подолати очевидні обмеження. Це правило є принциповим: посада, яка не відповідає на запитання, не належить. Це прагне підтримувати кожну нитку узгодженою, обмеженою, чистою та актуальною. Це важливо для створення матеріалів, які, як правило, корисніші та цікавіші, ніж ви знайдете на будь-якому іншому веб-сайті Q&A.
whuber

3
Ви задумалися з цим, але, на мій погляд, це залишається дуже проблематичним як відповідь. 1. Ви розширюєте питання декількома способами, наприклад, використовуючи також важкі дистрибутиви. Це може бути розумною справою в деяких нитках, але ось добре сфокусований потік з якісними відповідями, а додаткова відповідь тут - за великим рахунком замутніння вод. Коли існують хороші відповіді на запитання, має бути справді вагомий привід для нової відповіді.
Нік Кокс

4
2. Твердження про зміщення трансформації залишаються махаючи руками; немає жодної технічної точності відповіді, яка відповідає заявам, включаючи загадкове твердження, що журнал менш проблематичний, ніж інші подібні перетворення.
Нік Кокс

4
3. Подробиці про Ламберта Wзалишається загадковим. Загалом, повідомлення полягає в тому, що перетворення сумнівні, за винятком того, що Асін і Ламберт можуть бути добрими. Це здається суперечливим і недостатньо пояснено. Ви, очевидно, дуже добре обізнані, але для цього вам потрібен прямий стиль опису. Отже, я не можу підтримати це доброю совістю. На мій погляд, ваше попереднє рішення про його вилучення було краще. Тут і в інших місцях я не думаю, що ви дуже вловили стиль резюме: не існує жорсткого рецепту, але відповіді повинні бути зосереджені; балакучі, дискурсивні пости зазвичай не підходять добре.
Нік Кокс

0

Зроблено багато цікавих моментів. Ще кілька?

1) Я б припустив, що ще однією проблемою з лінійною регресією є те, що «ліва сторона» рівняння регресії - E (y): очікуване значення. Якщо розподіл помилок не симетричний, то достовірності для дослідження очікуваного значення є слабкими. Очікуване значення не є центральним, коли помилки несиметричні. Можна замість цього вивчити квантильну регресію. Тоді вивчення, скажімо, медіани чи інших відсоткових балів може бути гідним, навіть якщо помилки несиметричні.

2) Якщо вибираєте перетворювати змінну відповіді, то, можливо, хочете перетворити одну з декількох пояснювальних змінних з тією ж функцією. Наприклад, якщо у відповіді є "кінцевий" результат, то він може мати "базовий результат" як пояснювальну змінну. Для інтерпретації має сенс перетворення "остаточне" та "базове" з тією ж функцією.

3) Основний аргумент для перетворення пояснювальної змінної часто полягає в лінійності взаємозв'язку відповідь - пояснення. У наші дні можна розглянути інші варіанти, наприклад, обмежені кубічні сплайни або дробові поліноми для пояснювальної змінної. Безумовно, часто існує певна чіткість, якщо можна знайти лінійність.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.