Яка причина прийняття перетворення журналу кількох безперервних змінних?


16

Я займався питаннями класифікації, і читав код та підручники багатьох людей. Одне, що я помітив, - це те, що багато людей приймають np.logабо logбезперервну змінну, наприклад, loan_amountі applicant_incomeт.д.

Я просто хочу зрозуміти причину цього. Чи допомагає це покращити точність прогнозування нашої моделі. Це обов’язково? чи є якась логіка за цим?

Будь ласка, надайте пояснення, якщо це можливо. Дякую.

Відповіді:


27

Це робиться, коли змінні охоплюють кілька порядків. Дохід - типовий приклад: його розподіл - "закон про владу", це означає, що переважна більшість доходів є невеликими і дуже мало - великими.

Цей тип розподілу "жирного хвоста" вивчається в логарифмічній шкалі через математичні властивості логарифму:

лог(хн)=нлог(х)

що має на увазі

лог(104)=4лог(10)

і

лог(103)=3лог(10)

що перетворює величезну різницю

104-103
у меншу
4-3
Зробити значення порівняльними.


2
Гарна відповідь, спеціально кажучи про експоненціальні розподіли.
Касра Маншай

1
@KasraManshaei Я говорив про закони влади, зокрема (дохід є типовим прикладом): екстремальні значення експоненціального розподілу за визначенням дуже рідкісні. Тому дані, що охоплюють багато порядків, зазвичай є законом влади.
Duccio Piovani

1
але звичайно в таких випадках лог ---> ln, що абсолютно не змінює точку відповіді.
Duccio Piovani

Так, я зрозумів. Як ви сказали, не так багато змін.
Касра Маншаї

7

Переважно через перекошений розподіл. Логарифм природним чином зменшує динамічний діапазон змінної, тому відмінності зберігаються, тоді як шкала не настільки різко перекошена. Уявіть, що деякі люди отримали 100 000 000 позики, а деякі отримали 10000 і деякі 0. Будь-яке масштабування можливостей, ймовірно, поставить 0 і 10000 так близько один до одного, як найбільше число все одно відсуває межу. Логарифм вирішує питання.


Manshael, так що я можу використовувати MinMaxScaler або StandardScaler правильно? або Чи потрібно вести журнал?
Сай Кумар

Необхідні. Якщо ви користуєтеся шкалерами, вони різко стискають невеликі значення. Це я мав намір сказати.
Касра Маншаї

2
Так. Якщо взяти до уваги значення 1000 000 000 і 10000 і 0. У багатьох випадках перший занадто великий, щоб інші могли правильно бачити вашу модель. Але якщо взяти логарифм, у вас буде відповідно 9, 4 та 0. Як бачите, динамічний діапазон зменшується, а відмінності майже зберігаються. Він походить з будь-якої експоненціальної природи вашої функції. У цих випадках вам потрібен логарифм, як зображено в іншій відповіді. Сподіваюся, що це допомогло :)
Касра Маншаї

2
Ну, масштабування! Уявіть дві змінні з нормальним розподілом (тому немає необхідності в логарифмі), але одна з них у шкалі 10ш, а друга в масштабі мільйонів. Знову подача їх на модель робить маленького невидимим. У цьому випадку ви використовуєте шкали, щоб зробити їх шкалою розумною.
Касра Маншаї

1
@KasraManshaei log (0) = -втім, якщо.
JAD

5

журналх0<х<-<журналх<

х


3

Ще одна причина, чому логарифмічні перетворення корисні, грає для даних співвідношення, через те, що log(A/B) = -log(B/A). Якщо ви плануєте розподіл співвідношень за необробленою шкалою, ваші бали потрапляють у діапазон (0, Inf). Будь-які співвідношення, менші за 1, будуть розміщені на невеликій ділянці сюжету, і, крім того, сюжет буде виглядати зовсім інакше, якщо ви перевернете співвідношення на (B/A)замість (A/B). Якщо ви робите це в логарифмічному масштабі, діапазон зараз є (-Inf, +Inf), тобто співвідношення менше 1 і більше 1 більш рівномірно розподілені. Якщо ви вирішили перевернути коефіцієнт, просто переверніть сюжет навколо 0, інакше він виглядає точно так само. У масштабі журналу це не має значення, якщо ви показуєте співвідношення як 1/10 or 10/1, що корисно, коли немає очевидного вибору щодо того, яким воно має бути.


3

Ви повинні подивитися на лонормальний розподіл .

Люди можуть використовувати журнали, тому що вони думають, що це стискає масштаб або щось подібне, але принципове використання журналів полягає в тому, що ви працюєте з даними, що мають логічний розподіл. Це, як правило, такі речі, як зарплата, ціни на житло тощо, де всі цінності позитивні та більшість відносно скромні, але деякі дуже великі.

Якщо ви можете взяти журнал даних, і він стає нормальним, тоді ви можете скористатися багатьма особливостями нормального розподілу, як, наприклад, чітко визначене середнє значення, стандартне відхилення (а отже, z-бали), симетрія тощо.

Аналогічно, додавання журналів - це те саме, що множення значень un-log'd. Це означає, що ви перетворили розподіл, де помилки є адитивними, у той, де вони мультиплікативні (тобто на основі відсотків). Оскільки такі методи, як регрес OLS, вимагають нормального розподілу помилок, робота з журналами розширює їх застосування від аддитивного до мультиплікативного процесів.


1
Якщо ви хочете порівняти елементи без розповсюдження, чи не було б краще взяти відсотки або децили і використовувати їх замість початкового значення?
Вільям Пейн

1
@WilliamPayne Звичайно, ви можете використовувати метод без розповсюдження, хоча ви також відмовляєтесь від деякої сили наявності розповсюдження ... якщо ваші припущення щодо поширення є правильними. При більших (правильних) припущеннях приходить більша потужність. Відсотки по суті є ранговими, тому ви викидаєте інформацію про відстань, яку ви маєте, а певний відсоток вибірки - це бальна оцінка. Як правило, ми віддаємо перевагу розподілам по точкам.
Уейн

0

Я б сказав, що головна причина - це не розподіл, а скоріше через нелінійну залежність. Журнали часто фіксують насичуючі стосунки ...

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.