Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?
Я шукаю кращого розподілу для незалежної змінної, про яку йдеться, або для зменшення ефекту людей, що переживають люди, або чогось іншого?
Відповіді:
Я завжди вагаюся стрибнути в нитку із такою кількістю відмінних відповідей, як це, але мені вражає, що мало хто з відповідей дає будь-яку причину віддавати перевагу логарифму перед якоюсь іншою трансформацією, яка "стискає" дані, наприклад, корінь або зворотній зв'язок.
Перш ніж дійти до цього, давайте переосмислимо мудрість у існуючих відповідях більш загальним способом. Деяке нелінійне повторне вираження залежної змінної вказується, коли застосовується будь-яке з наведеного нижче:
Залишки мають косий розподіл. Мета трансформації - отримати залишки, які приблизно симетрично розподілені (звичайно, приблизно до нуля).
Поширення залишків систематично змінюється зі значеннями залежної змінної ("гетеросцедастичність"). Мета трансформації - усунути ту систематичну зміну поширення, досягнувши приблизної "гомоскедастичності".
Лінеаризувати відносини.
Коли наукова теорія вказує. Наприклад, хімія часто пропонує виражати концентрації як логарифми (надання активності або навіть загальновідомого рН).
Коли більш туманна статистична теорія пропонує залишкам відображати "випадкові помилки", які не накопичуються адитивно.
Для спрощення моделі. Наприклад, іноді логарифм може спростити кількість і складність термінів "взаємодії".
(Ці вказівки можуть суперечити один одному; у таких випадках необхідне судження.)
Отже, коли конкретно вказаний логарифм замість якогось іншого перетворення?
Залишки мають "сильно" позитивно перекошений розподіл. У своїй книзі про EDA Джон Тукі подає кількісні способи оцінити трансформацію (всередині сімейства Box-Cox, або владу, перетворення) на основі статистичних даних про залишки. Це дійсно зводиться до того, що якщо взяття журналу симетризує залишки, можливо, це була правильна форма повторного вираження; в іншому випадку потрібне якесь інше повторне вираження.
Коли SD залишків прямо пропорційно встановленим значенням (а не деякій потужності встановлених значень).
Коли відносини близькі до експоненціальних.
Коли вважається, що залишки відображають помилки, що накопичують мультипликативно.
Вам дуже потрібна модель, в якій граничні зміни пояснювальних змінних інтерпретуються через мультиплікативні (відсоткові) зміни залежної змінної.
Нарешті, деякі не є - причини використовувати повторне вираз :
Зробити позашляховиків не схожими на людей, що вижили. Зовнішній вигляд - це дата, яка не відповідає деякому парсимонічному порівняно простому опису даних. Зміна опису, щоб покращити вигляд людей, як правило, є неправильним відміною пріоритетів: спочатку отримайте науково обгрунтований, статистично хороший опис даних, а потім вивчіть будь-які люди. Не дозволяйте випадковим людям визначати, як описати решту даних!
Тому що програмне забезпечення автоматично це зробило. (Достатньо сказано!)
Тому що всі дані є позитивними. (Позитивність часто передбачає позитивну косисть, але цього не потрібно. Крім того, інші перетворення можуть працювати краще. Наприклад, корінь часто найкраще працює з переліченими даними.)
Зробити "погані" дані (можливо, низької якості) добре.
Щоб мати змогу побудувати дані. (Якщо перетворення необхідно , щоб мати можливість побудувати дані, ймовірно , це необхідно для одного або більше вагомих причин вже згадуваних Якщо єдина причина для перетворення дійсно для креслення, йти вперед і робити це. - але тільки для побудови Дані. Залиште дані неперероблені для аналізу.)
Я завжди кажу студентам, що є три причини перетворити змінну, приймаючи природний логарифм. Причина реєстрації змінної визначатиме, чи потрібно реєструвати незалежну змінну (и), залежну або обох. Щоб було зрозуміло протягом усього часу, я говорю про прийняття природного логарифму.
По-перше, для поліпшення розміщення моделі, як відзначали інші афіші. Наприклад, якщо ваші залишки зазвичай не розподіляються, то прийняття логарифму перекошеної змінної може покращити пристосування, змінивши масштаб і зробивши змінну більш "нормально" розподіленою. Наприклад, заробіток скорочується на нулі і часто виявляється позитивним перекосом. Якщо змінна має негативне перекос, ви можете спочатку інвертувати змінну, перш ніж приймати логарифм. Я думаю тут, зокрема, про шкали Лікерта, які враховуються як постійні змінні. Хоча це зазвичай стосується залежної змінної, у вас періодично виникають проблеми із залишками (наприклад, гетеросцедастичність), викликаними незалежною змінною, яку іноді можна виправити, взявши логарифм цієї змінної. Наприклад, при застосуванні моделі, яка пояснювала оцінювання лектора на наборі лекторів і класів, коваріативні змінна "розмір класу" (тобто кількість студентів на лекції) мала відшарування, що викликало гетероседастичність, оскільки відхилення в оцінках лектора було меншим і більшим когорти, ніж менші. Реєстрація змінної студента допомогла б, хоча в цьому прикладі або обчислення надійних стандартних помилок або використання зважених найменших квадратів може полегшити тлумачення.
І нарешті, для цього може бути теоретична причина. Наприклад, деякі моделі, які ми хотіли б оцінити, є мультиплікативними і тому нелінійними. Прийняття логарифмів дозволяє оцінити ці моделі за лінійною регресією. Хорошими прикладами цього є виробнича функція Кобба-Дугласа в економіці та рівняння Мінькера в освіті. Функція виробництва Кобба-Дугласа пояснює, як входи перетворюються на виходи:
де
Прийняття логарифмів цього полегшує оцінку функції, використовуючи лінійну регресію OLS як таку:
Докладніше про чудову позицію Уубера про причини віддати перевагу логарифму перед деякими іншими перетвореннями, такими як кореневі або зворотні, але зосередившись на унікальній інтерпретації коефіцієнтів регресії, що є результатом перетворення журналу порівняно з іншими перетвореннями, див:
Олівер Н. Кін. Перетворення журналу особливе. Статистика в медицині 1995 р .; 14 (8): 811-819. DOI: 10.1002 / sim.4780140810 . (PDF із сумнівною законністю доступний за посиланням http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf ).
Якщо ви записуєте незалежну змінну x до бази b , ви можете інтерпретувати коефіцієнт регресії (і CI) як зміну залежної змінної y на b- кратне збільшення x . (Отже, журнали до бази 2 часто корисні, оскільки відповідають зміні y на подвоєння у x , або журнали до бази 10, якщо x змінюється на багато порядків, що рідше). Інші перетворення, наприклад квадратний корінь, не мають такої простої інтерпретації.
Якщо ви записуєте залежну змінну y (не оригінальне запитання, а те, на яке було звернуто кілька попередніх відповідей), я вважаю, що ідея Тіма Коула про "симпертенти" є привабливою для представлення результатів (я навіть їх використовував у статті один раз), хоча вони, схоже, не зачепилися за все так широко:
Тім Дж Коул. Симптоми: симетричні відсоткові різниці за шкалою 100 log (e) спрощують подання даних, перетворених журналом. Статистика в медицині 2000 р .; 19 (22): 3109-3125. DOI: 10.1002 / 1097-0258 (20001130) 19:22 <3109 :: AID-SIM558> 3.0.CO; 2-F [Я дуже радий, що Stat Med перестав використовувати SICI, як DOI ...]
Зазвичай береться журнал вхідної змінної для масштабування її та зміни розподілу (наприклад, для нормального розподілу). Однак це неможливо зробити наосліп; Ви повинні бути обережними під час будь-якого масштабування, щоб гарантувати, що результати все ще інтерпретуються.
Про це йдеться у більшості вступних текстів статистики. Ви також можете прочитати статтю Ендрю Гелмана на тему "Масштабування регресії введеннями шляхом поділу на два стандартних відхилення" для обговорення цього питання. Він також дуже приємно обговорив це питання на початку "Аналіз даних за допомогою регресії та багаторівневих / Ієрархічних моделей" .
Введення журналу не є підходящим методом боротьби з поганими даними / видавцями.
Ви схильні приймати журнали даних, коли є проблеми із залишками. Наприклад, якщо побудувати залишки проти певного коваріату і спостерігати зростаючий / зменшується візерунок (форма воронки), то трансформація може бути доречною. Невипадкові залишки зазвичай вказують на те, що ваші припущення щодо моделі неправильні, тобто ненормальні дані.
Деякі типи даних автоматично піддаються логарифмічним перетворенням. Наприклад, я зазвичай беру журнали, коли маю справу з концентрацією або віком.
Незважаючи на те, що перетворення в основному не використовуються для боротьби з інвалідами, вони допомагають, оскільки реєстрація журналів розсипає ваші дані.
rms
require(rms)
dd <- datadist(mydata); options(datadist='dd')
cr <- function(x) x ^ (1/3)
f <- ols(y ~ rcs(cr(X), 5), data=mydata)
ggplot(Predict(f)) # plot spline of cr(X) against X
Я хотів би відповісти на запитання користувача1690130, яке було залишене як коментар до першої відповіді 26 жовтня 12 року і було наступне: "Як щодо змінних, таких як щільність населення в регіоні або співвідношення дітей-викладачів для кожного шкільного округу чи кількість вбивств на 1000 населення? Я бачив, як професори беруть журнал цих змінних. Мені не ясно, чому. Наприклад, чи не вбивство вже є відсотком? У журналі буде відсоткове зміна ставка? Чому б краще віддати перевагу журналу співвідношення дитина-вчитель? "
Я шукав відповіді на подібну проблему і хотів поділитися тим, що про це говорить мій старий навчальний посібник з статистики ( Джефрі Вулдрідж. 2006. Вступна економетрія - сучасний підхід, 4-е видання. Розділ 6 Множинний регресійний аналіз: подальші проблеми. 191 ). Вулдрідж радить:
Змінні, які відображаються у пропорційній чи відсотковій формі, такі як рівень безробіття, рівень участі у пенсійному плані, відсоток студентів, які здають стандартизований іспит, та рівень арешту за зареєстрованими злочинами - можуть відображатися як у оригінальній, так і логарифмічній формі , хоча є тенденція до використання їх у рівних формах . Це пояснюється тим, що будь-які коефіцієнти регресії, що включають початкову змінну - незалежна вона чи незалежна змінна, - матимуть інтерпретацію зміни процентного пункту. Якщо ми використовуємо, скажімо, log ( unem ) в регресії, де unem є відсотком безробітних, ми повинні бути дуже обережними, щоб розрізняти зміну процентного пункту та відсоткові зміни. Пам’ятайте, якщо унемйде від 8 до 9, це збільшення на один відсотковий пункт, але збільшення на 12,5% від початкового рівня безробіття. Використання журналу означає, що ми дивимось на відсоткові зміни рівня безробіття: log (9) - log (8) = 0,118 або 11,8%, що є логарифмічним наближенням до фактичного збільшення на 12,5%.
Виходячи з цього і підробляючи коментарі на попередній коментар Ваубера до запитання користувача1690130, я б уникнув використання логарифму змінної щільності або відсоткової ставки, щоб інтерпретація була простою, якщо використання форми журналу не призвело до значних компромісів, таких як можливість зменшити спотвореність щільності або змінна ставка.
Шейн вважає, що прийняття журналу для боротьби з поганими даними добре прийнято. Як і Колін щодо важливості нормальних залишків. На практиці я вважаю, що зазвичай можна отримати нормальні залишки, якщо змінні вводу та виходу також відносно нормальні. На практиці це означає очне яблуко розподілу трансформованих і нетрансформованих наборів даних та впевненість у собі, що вони стали більш нормальними та / або проводять тести на нормальність (наприклад, тести Шапіро-Вілка або Колмогорова-Смірнова) та визначати, чи є результат більш нормальним. Важлива також інтерпретабельність і традиція. Наприклад, у когнітивній психології часто застосовуються трансформації часу реакції, однак, щонайменше, мені трактування журналу RT незрозуміле. Крім того,