Спочатку давайте подивимося, що зазвичай відбувається, коли ми беремо журнали про те, що є правильним перекосом.
У верхньому рядку містяться гістограми для зразків із трьох різних, дедалі більше косих розподілів.
У нижньому рядку містяться гістограми для їх журналів.
Видно, що центральний випадок ( y ) перетворений на симетрію, тоді як більш м'який правий випадок ( x ) тепер дещо лівий косий. З іншого боку, найбільш змінна зміна ( z ) все ще є (злегка) правим перекосом, навіть після взяття журналів.
Якщо ми хотіли, щоб наші дистрибуції виглядали нормальніше, перетворення, безумовно, покращили другий і третій випадок. Ми можемо побачити, що це може допомогти.
То чому це працює?
Зауважте, що дивлячись на зображення форми розподілу, ми не розглядаємо середнє або стандартне відхилення - це лише впливає на мітки на осі.
Таким чином, ми можемо уявити, як дивитися на якісь "стандартизовані" змінні (залишаючись позитивними, усі мають схоже розташування та поширення, скажімо)
Взяття журналів "тягне" більш екстремальні значення праворуч (високі значення) відносно медіани, тоді як значення в крайній лівій частині (низькі значення), як правило, відтягуються назад, далі від медіани.
xyz
y
Але коли ми беремо колоди, вони повертаються назад до медіани; після взяття журналів це лише приблизно 2 міжквартильні діапазони над медіаною.
Тим часом низьке значення, як 30 (лише 4 значення в вибірці розміром 1000 нижче), є трохи меншим, ніж один міжквартильний діапазон нижче медіани y
Не випадково співвідношення 750/150 і 150/30 є і 5, коли і log (750), і log (30) закінчилися приблизно на однаковій відстані від медіани log (y). Ось так працюють журнали - перетворюють постійні співвідношення в постійні різниці.
Не завжди буває так, що журнал помітно допоможе. Наприклад, якщо взяти скажімо лонормальну випадкову величину і істотно змістити її вправо (тобто додати до неї велику константу), щоб середнє значення стало великим відносно стандартного відхилення, то прийняття журналу цього значення мало б мало значення для форма. Було б менше косо - але ледве.
Але інші перетворення - квадратний корінь, кажуть, - також матимуть великі значення. Чому, зокрема, журнали користуються більшою популярністю?
Я торкнувся однієї причини лише наприкінці попередньої частини - постійні співвідношення мають тенденцію до постійних відмінностей. Це робить журнали відносно простими для інтерпретації, оскільки постійні зміни відсотків (як збільшення на 20% для кожного з набору чисел) стають постійними змінами. Так зменшення−0.162
Наприклад, велика кількість економічних та фінансових даних (постійний або майже постійний вплив на процентну шкалу). Шкала журналу має в цьому випадку багато сенсу. Більше того, в результаті цього ефекту в масштабі відсотків. поширення значень має тенденцію бути більшим, оскільки середня величина збільшується - а взяття журналів також має тенденцію до стабілізації розповсюдження. Зазвичай це важливіше, ніж нормальність. Дійсно, всі три розподіли в початковій діаграмі походять із сімей, де стандартне відхилення зросте із середнім значенням, і в кожному випадку взяття журналів стабілізує дисперсію. [Однак це не відбувається з усіма правильними перекошеними даними. Це просто дуже часто зустрічається в даних даних, які з'являються в певних областях застосування.]
Бувають і випадки, коли квадратний корінь зробить речі більш симетричними, але це, як правило, відбувається з менш косими розподілами, ніж я використовую в своїх прикладах тут.
Ми могли б (досить легко) побудувати ще один набір із трьох м'яких правоприкладних прикладів, де квадратний корінь робив один лівий косий, один симетричний, а третій - ще праворукий (але трохи менше перекосу, ніж раніше).
А як щодо дистрибуторів з лівою косою?
Якщо ви застосували перетворення журналу до симетричного розподілу, воно, як правило, зробить його лівим нахилом з тієї ж причини, що часто робить правий косий ще один симетричний - дивіться відповідну дискусію тут .
Відповідно, якщо застосувати трансформацію журналу до чогось, що вже залишилося перекошеним, воно, як правило, зробить його ще більше лівим перекосом, ще сильніше підтягуючи речі над медіаною і ще сильніше розтягуючи речі нижче медіани вниз.
Тож трансформація журналу тоді не була б корисною.
Дивіться також силові перетворення / сходи Тукі. Розподіл, що залишився нахилом, може бути більш симетричним, взявши силу (більша за 1 - скажучи квадрати), або шляхом експоненції. Якщо вона має очевидну верхню межу, можна відняти спостереження від верхньої межі (даючи правильний перекошений результат), а потім спробувати її перетворити.