Коли (і навіщо) слід взяти журнал розподілу (чисел)?


173

Скажімо, у мене є деякі історичні дані, наприклад, минулі ціни на акції, коливання цін на авіаквитки, минулі фінансові дані компанії ...

Тепер хтось (або якась формула) підійде і каже "давайте візьмемо / скористаємося журналом розподілу", і ось де я йду ЧОМУ ?

Запитання:

  1. ЧОМУ слід брати в першу чергу журнал розподілу?
  2. ЩО журнал розподілу "дає / спрощує", що початковий розподіл не міг / не зробив?
  3. Чи перетворення журналу "без втрат"? Тобто, при перетворенні в логічний простір та аналізі даних, чи відповідають однакові висновки щодо оригінального розподілу? Як це?
  4. І нарешті, КОЛИ взяти журнал розподілу? За яких умов людина вирішує це зробити?

Мені дуже хотілося зрозуміти розподіли на основі журналу (наприклад, ненормальні), але я ніколи не розумів, коли / чому аспекти - тобто журнал дистрибуції - це нормальний розподіл, і що? Що це говорить навіть мені і чому турбує? Звідси питання!

ОНОВЛЕННЯ : Відповідно до коментаря @ whuber, я переглянув пости і чомусь розумію використання перетворень журналу та їх застосування в лінійній регресії, оскільки ви можете встановити залежність між незалежною змінною та журналом залежної змінної. Однак моє запитання є загальним у сенсі аналізу самого розподілу - саме по собі я не можу зробити висновок, щоб допомогти зрозуміти причину взяття журналів для аналізу розподілу. Я сподіваюся, що я маю сенс: - /

У регресійному аналізі у вас є обмеження щодо типу / підгонки / розподілу даних, і ви можете їх перетворити і визначити відношення між незалежною та (не перетвореною) залежною змінною. Але коли / навіщо робити це для розподілу поодиноко, коли обмеження типу / придатності / розповсюдження не обов'язково застосовуються в рамках (наприклад, регресія). Я сподіваюся, що уточнення робить речі більш зрозумілими, ніж заплутаними :)

Це запитання заслуговує на чітку відповідь щодо "ЧОМУ і КОЛИ"


3
Оскільки це стосується майже тієї ж основи, що і попередні запитання тут і тут , будь ласка, прочитайте ці теми та оновіть своє запитання, щоб зосередитись на будь-яких аспектах цієї проблеми, які ще не вирішені. Зауважте також, що №4 (і частина №3) - це елементарні запитання про логарифми, відповіді яких легко знайти в багатьох місцях.
whuber

1
Прояснення допомагає. Можливо, ви хочете замислитися над тим, що регресія, що має лише постійний термін (а також ніяких інших незалежних змінних), не означає оцінку варіацій даних навколо їх середнього значення. Тому, якщо ви дійсно розумієте ефекти прийняття журналів залежних змінних в регресії, ви вже розумієте (простішу) ситуацію, про яку ви питаєте тут. Коротше кажучи, щойно у вас є відповіді на всі чотири запитання для регресу, вам не потрібно буде їх більше запитувати про "розподіл у відриві".
whuber

@whuber: Я бачу ... тому я розумію причини реєстрації журналів в регресії, але тільки тому, що мене так вчили - я розумію це з необхідності робити це в перспективі, тобто для того, щоб дані відповідали припущенням лінійної регресії. Це моє єдине розуміння. Можливо, те, чого мені не вистачає, - це "реальне розуміння" ефекту від взяття журналів і, отже, плутанина ... будь-яка допомога? ;)
Кандидат

2
Ах, але ви знаєте набагато більше, ніж це, адже після використання журналів в регресії ви знаєте, що результати трактуються по-різному, і ви знаєте, що потрібно подбати про перетворення трансформованих пристосованих значень та довірчих інтервалів. Я припускаю, що ви можете не збиватися з пантелику і що ви, мабуть, уже знаєте багато відповідей на ці чотири запитання, хоча ви спочатку про це не знали :-).
whuber

Відповіді:


98

Якщо ви вважаєте, що модель нелінійна, але може бути перетворена на лінійну модель, таку як то було б обґрунтовано брати логарифми для задоволення заданої форми моделі. Взагалі, чи є у вас причинний ряд чи ні, єдиний раз, коли ви будете виправданим або правильним приймати Журнал це коли можна довести, що Варіантність пропорційна очікуваному значеннюlogY=β0+β1tYYYY2. Я не пам’ятаю першоджерела для наступного, але воно гарно узагальнює роль силових перетворень. Важливо відзначити, що припущення розподілу завжди стосуються процесу помилки, а не спостережуваного Y, тому це певне "ні-ні", щоб проаналізувати вихідний ряд для відповідного перетворення, якщо тільки ряд не визначається простою константою.

Необхідно уникати необґрунтованих чи неправильних перетворень, включаючи відмінності, оскільки вони часто є непродуманою / непродуманою спробою вирішити невідомі аномалії / зрушення рівня / тенденції часу або зміни параметрів або зміни дисперсії помилок. Класичний приклад цього обговорюється починаючи з слайда 60 тут http://www.autobox.com/cms/index.php/afs-university/intro-to-forecasting/doc_download/53-capa sposobnosti- представлення, де три аномалії імпульсу ( невиліковане) призвело до необґрунтованої трансформації журналу ранніми дослідниками. На жаль, деякі наші сучасні дослідники все ще роблять ту саму помилку.

Оптимальне перетворення потужності знайдено за допомогою тесту Box-Cox, де

  • -1. є зворотною
  • -.5 - кореневий квадратний корінь
  • 0,0 - перетворення журналу
  • .5 - перетворення квадратного зубця і
  • 1,0 - не перетворення.

Зауважте, що коли у вас немає передбачуваного / причинно-наслідкового / підтримуючого ряду вхідних даних, модель є і що немає ніяких вимог щодо розподілу BUT, вони виробляються приблизно , процес помилки. У цьому випадку вимоги розповсюдження про переходять безпосередньо до . Якщо у вас є допоміжні серії, такі як в регресії або в моделі середня модель з екзогенними вхідними моделями ( модель ARMAX ), припущення щодо розподілу стосуються і не мають нічого спільного з розподілом . Таким чином, у випадку моделі ARIMA або моделі ARMAX ніколи не передбачається жодної трансформаціїYt=u+atYatatYta t Y t Y Y Y X Y X log Y log XatYtY , перш ніж знайти оптимальне перетворення Боксу-Кокса , який потім запропонувати ліки (перетворення) для . У колишні часи деякі аналітики трансформує як і в гіпотетичним образом просто щоб бути в змозі відобразити на процентну зміну в результаті в процентному зміну шляхом вивчення коефіцієнта регресії між і . Підсумовуючи, перетворення подібні до наркотиків, деякі хороші, а деякі погані для вас! Їх слід застосовувати лише при необхідності, а потім обережно.YYXYXlogYlogX


2
Я погоджуюся, що той, хто покинув низовик, повинен залишити зауваження щодо того, чому це було знято. Ірландському регіону було б набагато простіше прочитати свою публікацію, якби ви скористалися варіантами форматування для залишення відповідей, особливо тих, які доступні для розмітки рівнянь у латексе. Див . Розділ довідки щодо редагування розмітки . Це посилання доступне щоразу, коли ви вводите відповідь у верхньому правому куті вікна проводки (у помаранчевому колі зі знаком питання).
Andy W

4
Цитовану таблицю можна знайти у Введенні до лінійного регресійного аналізу Дугласа К. Монтгомері, Елізабет А. Пек, Г. Джеффрі Вінінг.
користувач1717828

@ user1717828 tu .. Я завжди був фанатом Монтгомері, оскільки у нього довга борода, що стосується часових рядів
IrishStat

Чи не завжди правда, що другий момент і дисперсія пропорційні один одному? У нас є класичне рівняння: «Дисперсія дорівнює другому моменту мінус першому моменту у квадраті.
information_interchange

Як ви кажете, дисперсія є функцією другого моменту. Де я мав на увазі інше. Крім того, дисперсія може змінюватися (детерміновано) в різні моменти часу. ПЕРЕГЛЯДИТЕ pdfs.semanticscholar.org/09c4/…, що не виправляється силою перетворення.
IrishStat

107

Журнальна система повідомляє про відносні зміни (мультиплікативна), а лінійна - повідомляє про абсолютні зміни (добавка). Коли ви використовуєте кожен? Коли ви дбаєте про відносні зміни, використовуйте шкалу журналу; коли ви переймаєтесь абсолютними змінами, використовуйте лінійну шкалу. Це стосується розподілів, але також і для будь-якої кількості або змін кількості.

Зауважте, я використовую тут слово "догляд" дуже конкретно і навмисно. Без моделі чи мети на ваше запитання не можна відповісти; модель або мета визначає, який масштаб важливий. Якщо ви намагаєтесь щось моделювати, а механізм діє через відносну зміну, масштаб журналу має вирішальне значення для фіксації поведінки, поміченої у ваших даних. Але якщо механізм основної моделі є аддитивним, вам потрібно використовувати лінійну шкалу.

Приклад. Фондовий ринок .
Запас А на 1 день: 100 У другий день 101 . Кожна служба відстеження запасів у світі повідомляє про цю зміну двома способами! (1) + 1. (2) + 1%. Перший - це міра абсолютних, адитивних змін; друга міра відносної зміни.$$$

Ілюстрація відносної зміни проти абсолютної: Відносна зміна однакова, абсолютна зміна різна.
Запас А переходить від 1 до 1,10 . Запас B переходить від 100 до 110 .$$$$

Запас А набрав 10%, запас B набрав 10% (відносна шкала, рівний)
... але акція A набрала 10 центів, тоді як акція B набрала 10 (B отримала більше абсолютної суми в доларі)$

Якщо ми перетворимо в простір журналу, відносні зміни відображаються як абсолютні зміни.

Запас A переходить від до = 0 до .0413 Запас B переходить від до = 2 до 2,0413журнал 10 ( $ 1,10 ) журнал 10 ( 100 $ ) журнал 10 ( $ 110 )log10($1)log10($1.10)
log10($100)log10($110)

Тепер, беручи абсолютну різницю в просторі журналу , ми виявляємо, що обидва змінилися на .0413.

Обидва ці заходи змін є важливими, і який із них важливий, залежить виключно від вашої моделі інвестування. Є дві моделі. (1) Вкладення фіксованої суми основного капіталу або (2) інвестування у фіксовану кількість акцій.

Модель 1: Інвестування з фіксованою сумою основної суми.

Скажімо, вчора акція A коштує 1 за акцію, а запас B коштує 100 за акцію. Сьогодні вони обоє подорожчали на один долар до 2 та 101 відповідно. Їх абсолютна зміна однакова ( 1), але їх відносна зміна різко відрізняється (100% для A, 1% для B). Зважаючи на те, що ви маєте фіксовану суму основного капіталу, щоб інвестувати, скажімо, 100, ви можете дозволити собі лише 1 акцію B або 100 акцій A. Якщо ви вклали вчора, у вас було б 200 з A, або 101 з B. Отже, тут ви "дбаєте" про відносні прибутки, зокрема, тому що у вас є обмежена сума основної суми.$ $ $ $ $ $ $ $$$$$$$$$

Модель 2: фіксована кількість акцій.

При другому сценарії, припустимо, ваш банк дозволяє лише купувати пакети по 100 акцій, і ви вирішили вкласти кошти в 100 акцій А або В. У попередньому випадку, купуючи А або В, ваші прибутки будуть однаковими ( 100 - тобто 1 долар за кожну акцію).$

Тепер припустимо, що ми думаємо про вартість акцій як випадкову змінну, що коливається з часом, і ми хочемо придумати модель, яка відображає, як правило, поведінка акцій. Скажімо, ми хочемо використовувати цю модель для отримання максимального прибутку. Ми обчислюємо розподіл ймовірностей, значення x яких в одиницях «ціни акцій», а y-значення ймовірності дотримання заданої ціни акцій. Ми робимо це для акцій A і запасу B. Якщо ви підписалися на перший сценарій, де у вас є фіксована сума основної суми, яку ви хочете вкласти, то взяття журналу цих розподілів буде інформативним. Чому? Те, що вам цікаво, це форма розподілу у відносному просторі. Незалежно від того, чи є акція від 1 до 10, або 10 до 100 для вас не має значення, правда? Обидва випадки є в 10 разіввідносний приріст. Це природно відображається при розподілі в логічній шкалі, коли приріст одиниці відповідає виграшів безпосередньо. Для двох запасів, середня величина яких різна, але відносна зміна яких однаково розподілена (вони мають однаковий розподіл щоденних змін у відсотках ), їх журнальні розподіли будуть однаковими за формою, щойно зміщені. І навпаки, їх лінійні розподіли не будуть однаковими за формою, причому більш високе значення розподілу має більшу дисперсію.

Якби ви дивилися на ці ж розподіли в лінійному або абсолютному просторі, ви б подумали, що ціни на акції з більш високою ціною відповідають більшим коливанням. Для ваших цілей інвестування, де важливі лише відносні прибутки, це не обов'язково відповідає дійсності.

Приклад 2. Хімічні реакції. Припустимо, у нас є дві молекули А і В, які проходять зворотну реакцію.

AB

що визначається індивідуальними константами швидкості

( ) ( ) A B k b a B AkabABkbaBA

Їх рівновага визначається співвідношенням:

K=kabkba=[A][B]

Тут два пункти. (1) Це мультиплікативне співвідношення між концентраціями і . (2) Цей взаємозв'язок не є довільним, а виникає безпосередньо з основних фізико-хімічних властивостей, які керують молекулами, що стикаються одна з одною і реагують.БAB

Тепер припустимо, у нас є деякий розподіл концентрації А або В. Відповідна шкала цього розподілу знаходиться в логічному просторі, тому що модель того, як зміни концентрації визначаються мультипликативно (добуток концентрації А з оберненою концентрацією В). У деякій альтернативній всесвіті, де , ми можемо подивитися на це розподіл концентрації в абсолютному лінійному просторі.K=kabkba=[A][B]

Це означає, що якщо у вас є модель, будь то для прогнозування фондового ринку або хімічної кінетики, ви завжди зможете перетворювати "без втрат" між лінійним і журнальним простором, якщо ваш діапазон значень становить . Незалежно від того, чи ви вирішите переглянути лінійний чи логарифмічний розподіл, залежить від того, що ви намагаєтеся отримати з даних.(0,inf)

EDIT . Цікава паралель, яка допомогла мені побудувати інтуїцію, - це приклад арифметичних засобів проти геометричних засобів. Арифметичне (ванільне) значення обчислює середнє число чисел, припускаючи приховану модель, де важливі абсолютні відмінності. Приклад. Середнє арифметичне значення 1 і 100 становить 50,5. Припустимо, ми говоримо про концентрації, де хімічна залежність між концентраціями мультипликативна. Тоді середня концентрація дійсно повинна бути обчислена за журнальною шкалою. Це називається геометричним середнім. Середнє геометричне значення 1 і 100 дорівнює 10! З точки зору відносних різниць це має сенс: 10/1 = 10, а 100/10 = 10, тобто відносна зміна середнього та двох значень однакова. Крім того, ми знаходимо те саме; 50,5-1 = 49,5, і 100-50,5 = 49,5.


2
Це дійсно корисна відповідь, і я люблю приклади. Чи можете ви додати більше про "коли" спеціально для використання журналу перетворення? Ви кажете: "Коли вам важливі відносні зміни, використовуйте масштаб журналу; коли ви переймаєтесь абсолютними змінами, використовуйте лінійну шкалу". Але чи є випадки, коли ви дбаєте про відносні зміни, але не повинні перетворювати журнал, і якщо так, то як виявити ці випадки? Наприклад, у цій статті йдеться про те, що дані, які не відповідають нормальному розподілу журналу, не повинні перетворюватися в журнал: ncbi.nlm.nih.gov/pmc/articles/PMC4120293
skeller88

@ skeller88 Я згоден з цією роботою; це вузька відповідь на більш широке (і філософське!) питання "чому ми трансформуємо розподіли?" Я думаю, що відповідь полягає в тому, що у нас є добре розроблений статистичний інструментарій для протиставлення нормальних розподілів, але менш розвинений набір інструментів для інших, можливо, навіть неназваних розподілів (більшість). Підхід до оцінки дивовижної дистрибуції міг би бути взяттям журналу лише для того, щоб побачити, чи виглядає це нормальніше; але, як технічно описано вище в IrishStat, цей шлях загрожує небезпекою (квадратний кілочок, різноманітність круглих лунок).
вектор07

1
Існує відповідне пояснення цього ефекту і чому це важливо для дерев рішень трохи більше towardsdatascience.com / ...
Кіт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.