Чому б не перетворити log-перетворення всіх змінних, які не представляють основного інтересу?

10

Книги та дискусії часто говорять про те, що при зіткненні з проблемами (яких існує декілька) з передбачувачем, журнал-трансформація - це можливість. Тепер я розумію, що це залежить від розподілів, а нормальність у прогнозах не є припущенням регресу; але трансформація журналу робить дані більш уніфікованими, менше впливає на людей, що переживають люди тощо.

Я подумав про перетворення журналу всіх моїх безперервних змінних, які не представляють головного інтересу, тобто змінних, для яких я лише підлаштовуюся.

Це неправильно? Добре? Марно?

regression data-transformation

— Адам Робінсон
джерело

24

Тепер я розумію, що це залежить від розподілу та нормальності в прогнозах

Перетворення журналу робить дані більш уніфікованими

Як загальне твердження, це помилково --- але навіть якби це було так, чому б рівномірність б важливою?

Розглянемо, наприклад,

i) бінарний предиктор, який приймає лише значення 1 і 2. Прийняття журналів залишає його як бінарний предиктор, який приймає лише значення 0 та log 2. Це насправді не впливає ні на що, окрім перехоплення та масштабування термінів, що стосуються цього прогноктора. Навіть p-значення прогноктора було б незмінним, як і встановлені значення.

введіть тут опис зображення

ii) розглянути прогноз лівого перекосу. Тепер візьміть журнали. Зазвичай він стає більш лівим косим.

введіть тут опис зображення

iii) рівномірні дані стають перекривленими

введіть тут опис зображення

(хоча це не завжди настільки екстремальна зміна)

менше постраждали від чужих людей

Як загальне твердження, це помилково. Розгляньте низькі показники, які випадають в прогнозі.

введіть тут опис зображення

Я думав про перетворення журналу всіх моїх безперервних змінних, які не представляють основного інтересу

З якою метою? Якби спочатку відносини були лінійними, їх більше не було б.

введіть тут опис зображення

І якщо вони вже вигнуті, це автоматично може зробити їх гіршими (більш вигнутими), а не кращими.

-

Створення журналів передбачувача (чи це першочерговий інтерес, чи ні) іноді може бути придатним, але це не завжди так.

— Glen_b -Встановити Моніку
джерело

2

Велике спасибі за цю чудову відповідь. Я думаю, що багатьом з нас, принаймні мені, було потрібно, щоб це візуалізувало таким чином. Але чи погоджуєтесь ви також, що дані, котрі перекошують право, повинні піддаватися перетворенню журналів? Більше, ніж інші коси та форми?

— Адам Робінссон

1

Як правило, ні. Можливо, за дуже специфічних умов.

— Glen_b -Встановити Моніку

\hat{β} = 0.50

$\hat{\beta}=0.50$

(con't), ніж можна сказати, наприклад, для збільшення на один дюйм кількості окружності стовбура, середня висота дерева збільшується на половину фута. Пізніше простіше інтерпретувати та простіше обчислити в полі без калькулятора.

— СтатистикаСтудент

10

На мою думку, не має сенсу здійснювати перетворення журналу (і будь-яке перетворення даних , з цього приводу) тільки заради цього. Як зазначалося в попередніх відповідях, залежно від даних деякі перетворення були б або недійсними , або марними . Я настійно рекомендую прочитати наступний чудовий вступний матеріал ІМХО про трансформацію даних : http://fmwww.bc.edu/repec/bocode/t/transint.html . Зверніть увагу, що приклади коду в цьому документі написані мовою Stata , але в іншому випадку документ є загальним достатньо і, таким чином, корисним і для користувачів, які не використовують Stata.

У цій статті можна знайти кілька простих прийомів та інструментів для вирішення загальних проблем , пов’язаних із даними , такі як відсутність нормальності , відсторонення та розподіл сумішей (зауважте, що стратифікація як підхід до вирішення проблем із розподілом сумішей, швидше за все, є найпростішою - більш загальним і складним підходом до цього є аналіз суміші , також відомий як кінцеві моделі сумішей , опис яких виходить за рамки цієї відповіді). Перетворення Бокс-КоксаКоротко згаданий у двох вище посиланнях, є досить важливою трансформацією даних, особливо для ненормативних даних (з деякими застереженнями). Детальніше про трансформацію Box-Cox див. У цій вступній статті .

— Олександр Блех
джерело

2

Чудові згадки Олександр. Дякуємо, що поділилися необхідним скептицизмом. Дякую.

— Адам Робінссон

1

@AdamRobinsson: Моє задоволення, Адаме! Радий, що вам сподобалась моя відповідь.

— Олександр Блех

8

Перетворення журналу НЕ ЗАВЖДИ покращує ситуацію. Очевидно, що ви не можете ввійти змінних-перетворень, які досягають нульових чи негативних значень, і навіть позитивні, які обнімають нуль, можуть вийти з негативними витратами, якщо журнал-трансформований.

Вам слід не просто регулярно реєструвати все, але добре подумати про трансформацію вибраних позитивних предикторів (підходящо, часто журнал, але можливо щось інше), перш ніж підходити до моделі. Те саме стосується змінної відповіді. Тематичні знання також важливі. Деяка теорія з фізики чи соціології чи все, що природно може призвести до певних перетворень. Як правило, якщо ви бачите змінні, які є позитивно перекошеними, то тут може допомогти журнал (а може бути квадратний корінь або зворотний).

Деякі регресійні тексти, начебто, говорять про те, що ви повинні переглянути діагностичні схеми, перш ніж розглядати будь-які перетворення, але я не згоден. Я думаю, що краще зробити найкращу роботу, щоб зробити цей вибір, перш ніж підходити до будь-яких моделей, щоб ви мали найкращий вихідний пункт; потім подивіться на діагностику, щоб побачити, чи потрібно вам відрегулювати звідти.

— Расс Лент
джерело

Усі додають, що ці міркування стосуються як важливих, так і неважливих прогнозів.

— Russ Lenth

Дякую @rvl! Мене завжди бентежить розбіжність між тим, коли і як вибрати перетворення; книги часто стверджують, що, як ви писали, потрібно перевірити форму всіх змінних, перш ніж торкнутися регресії. Дякуємо, що надали вашу інформацію.

— Адам Робінссон

@rvl, дякую за відповідь. Чи вдасться ви перетворити snoqнабір даних у цьому крос-валідованому потоці (маючи на увазі, мета полягає в тому, щоб вмістити суміш гауссів)?

— Жубарб

-3

1) підрахунок даних (y> 0) -> log (y) або y = exp (b0 + biXi) 2) підрахунок даних + нуль (y> = 0) -> перешкода модель (двочлен + регістр підрахунку) 3) всі мультиплікативні ефекти (& помилки) будуть додатковою 4) дисперсія ~ середня -> log (y) або y = exp (b0 + biXi) 5) ...

— Іван Кшнясєв
джерело

Цю відповідь важко прочитати і незрозуміло, чи намагається вона відповісти на питання.

— Юхо Коккала

1

T E X

$\TeX$