Чи достатньо обґрунтування візуалізації для трансформації даних?


13

Проблема

Я б хотів побудувати дисперсію, пояснювану кожним із 30 параметрів, наприклад, як барплот з різною смугою для кожного параметра та дисперсією по осі y:

alt текст

Однак відхилення сильно перекошені до малих значень, включаючи 0, як видно з гістограми нижче:

alt текст

Якщо я перетворять їх за допомогою , буде легше побачити відмінності між малими значеннями (гістограма та барплот нижче):log(x+1)

alt текстalt текст

Питання

log(x+1)

Відповіді:


13

Деякі називають це " розпочатим логарифмом " ( наприклад , Джон Тукі). (Для деяких прикладів " Джон Жук" від Google "почав журнал" .)

Це абсолютно чудово використовувати. Насправді, ви можете очікувати використання ненульового початкового значення для обліку округлення залежної змінної. Наприклад, округлення залежної змінної до найближчого цілого числа ефективно відключається на 1/12 від її справжньої дисперсії, припускаючи, що розумне початкове значення повинно бути не менше 1/12. (Це значення не робить поганої роботи з цими даними. Використання інших значень вище 1 насправді не сильно змінює малюнок; воно просто підвищує всі значення в нижньому правому графіку майже рівномірно.)

Існують більш глибокі причини використовувати логарифм (або розпочатий журнал) для оцінки дисперсії: наприклад, нахил діаграми дисперсії проти розрахункового значення за шкалою журналу журналу оцінює параметр Box-Cox для стабілізації дисперсії . Часто спостерігаються подібні придатності, що відповідають законодавству, до певної змінної. (Це емпіричне твердження, а не теоретичне.)

Якщо ваша мета - представити відхилення, поступайте обережно. Багато аудиторій (окрім наукової) не можуть зрозуміти логарифм, тим більше розпочатий. Використання стартового значення 1, принаймні, заслуговує на те, що пояснити та інтерпретувати трохи простіше, ніж якесь інше початкове значення. Щось слід враховувати, це побудувати їх коріння, які, звичайно, є стандартними відхиленнями. Це виглядатиме приблизно так:

alt текст

Незалежно від того, якщо ваша мета - дослідити дані, навчитися на них, підходити до моделі чи оцінювати модель, тоді не дозволяйте нічого перешкоджати пошуку розумних графічних зображень ваших даних та отриманих даних значень. такі, як ці дисперсії.


1
дякую за пояснення та належну термінологію / довідку. Аудиторія - читачі наукового журналу, тема - дисперсійне розкладання; розуміння концепції перетворення журналу є необхідною умовою, але я все ще не був впевнений, чи потребує даного викладу подальше обґрунтування - коріння є хорошою альтернативою. Дякую.
Девід Лебоуер

3

Це може бути розумним. Краще задати питання - чи є 1 правильним числом, яке потрібно додати. Який був ваш мінімум? Якщо для початку це було 1, то ви накладаєте певний інтервал між предметами зі значенням нуля та тими, що мають значення 1. Залежно від сфери дослідження може бути більше сенсу вибирати 0,5 або 1 / e як зміщення. Під наслідком трансформації в масштаб журналу є те, що тепер у вас є масштаб співвідношення.

Але мене турбують сюжети. Я хотів би запитати, чи вважається, що модель, яка має більшу частину поясненої дисперсії в хвості косого розподілу, має бажані статистичні властивості. Я думаю, НЕ.


Я не впевнений, чи зрозуміло це, але гістограми мають 30 значень дисперсії, а барплоти - це неотримані значення дисперсії, тобто var <- c(0,0,1,3,10,100,150), hist(var), barplot(var)я інтерпретую це як декілька параметрів, пояснюючи більшість дисперсії, не те, що більшість поясненої дисперсії знаходиться в хвості. Це має більше сенсу? Вибачте, якщо це було незрозуміло.
Девід Лебоуер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.