Ми любимо нормальну форму
У більшості випадків ми намагаємось змусити їх діяти як нормально. Це не точка зору класифікаторів, але його вигляд вилучення!
Яка трансформація ?
Основним критерієм при виборі трансформації є: що працює з даними? Як свідчать вище приклади, важливо також розглянути два питання.
Що має фізичний (біологічний, економічний, будь-який) сенс, наприклад, з точки зору обмеження поведінки, оскільки значення набувають дуже малих чи дуже великих розмірів? Це питання часто призводить до використання логарифмів.
Чи можемо ми зберегти розміри та одиниці простими та зручними? Якщо можливо, ми віддаємо перевагу вимірювальним шкалам, про які легко думати.
Корінь куба об'єму і квадратний корінь площі мають обидва розміри довжини, тому далеко не ускладнюючи їх, такі перетворення можуть спростити їх. Як правило, зворотні запити мають прості одиниці. Однак часто дещо складні одиниці - це жертва, яку треба зробити.
Коли використовувати що ?
Найбільш корисними перетвореннями в аналізі вступних даних є зворотна, логарифм, кубічний корінь, квадратний корінь і квадрат. Далі, навіть коли це не підкреслюється, передбачається, що перетворення використовуються лише в діапазонах, на яких вони дають (кінцеві) реальні числа як результати.
- Зворотна : Взаємна , x до 1 / x, з побратимом від'ємного зворотного, x до -1 / x, є дуже сильним перетворенням з різким впливом на форму розподілу. Його не можна застосувати до нульових значень. Хоча це може бути застосовано до негативних значень, воно не є корисним, якщо всі значення не є позитивними. Зворотний коефіцієнт часто може трактуватися так само легко, як і саме співвідношення: Приклад:
- щільність населення (людей на одиницю площі) стає площею на людину
- особи на одного лікаря стають лікарями на людину
- темпи ерозії стають часом для стирання одиничної глибини
(На практиці ми можемо захотіти помножити або розділити результати прийняття зворотного на якусь константу, наприклад, 1000 або 10000, щоб отримати числа, які легко управляти, але це само по собі не впливає на скасованість або лінійність.)
Зворотний зворотний порядок серед значень одного знака: найбільше стає найменшим і т. Д. Від’ємний зворотний зберігає порядок серед значень одного знака.
Логарифм : логарифм, x log 10 x, або x log ex або ln x, або x log 2 x, є сильним перетворенням, що має великий вплив на форму розподілу. Він зазвичай використовується для зменшення косості вправо і часто підходить для вимірюваних змінних. Його не можна застосовувати до нульових або негативних значень. Одна одиниця в логарифмічній шкалі означає множення на основу використовуваних логарифмів. Експонентний ріст чи спад.
- у= a e x p ( b x )
робиться лінійним на -
так що змінна відповіді y повинна реєструватися. (Тут exp () означає підняття до потужності e, приблизно 2.71828, що є основою природних логарифмів). Відхилення від цього експоненціального рівняння зростання чи спаду:
, так що a - сума або підрахунок, коли x = 0. Якщо a і b> 0, то y росте швидше і швидша швидкість (наприклад, складений відсоток або неконтрольований приріст населення), тоді як якщо a> 0 і b <0, y зменшується повільніше і повільніше (наприклад, радіоактивне розпад).л н у= l n a + b xx = 0у= a e x p ( 0 ) = a
- Функції живлення :
у= а хб робиться лінійним шляхом
так що обидва змінні y та x повинні бути записані. Осторонь таких
функцій живлення : поставте , а для ,л о гу= л о гa + b l o gх
x = 0b > 0
у= а хб= 0 тому функція сили для позитивного b проходить через початок, що часто має фізичний чи біологічний чи економічний сенс. Подумайте: чи означає нуль для х значення нуля для у? Така
функція живлення - це форма, яка
досить добре відповідає багатьом наборам даних .
- Розглянемо співвідношення y = p / q, де p і q на практиці позитивні.
Приклади:
- Самці / жінки
- Утриманці / працівники
- Нижня довжина / довжина Downvalley
Тоді y десь між 0 і нескінченністю, або в останньому випадку, між 1 і нескінченністю. Якщо p = q, то y = 1. Такі визначення часто призводять до перекошених даних, оскільки є чітка нижня межа і немає чіткої верхньої межі. Логарифм, однак, а саме
log y = log p / q = log p - log q, знаходиться десь між-нескінченністю та нескінченністю, а p = q означає, що log y = 0. Отже, логарифм такого відношення, швидше за все, буде симетричнішим.
Корінь куба : Корінь куба, х 1/3 . Це досить сильна трансформація, яка суттєво впливає на форму розподілу: вона слабша, ніж логарифм. Він також використовується для зменшення прямої косості і має ту перевагу, що його можна застосувати до нульових та негативних значень. Зауважимо, що кубик кореня об'єму має одиниці довжини. Він зазвичай застосовується для даних про кількість опадів.
Застосування до негативних значень вимагає особливої примітки. Розглянемо
(2) (2) (2) = 8 і (-2) (- 2) (- 2) = -8. Ці приклади показують, що
корінь куба від’ємного числа має негативний знак і таке ж
абсолютне значення, як і корінь куба еквівалентного додатного числа. Подібною властивістю володіє будь-який інший корінь, сила якого є
зворотним непарним натуральним числом (повноти 1/3, 1/5, 1/7 тощо)
Ця властивість трохи делікатна. Наприклад, змінимо потужність просто на smidgen з 1/3, і ми більше не можемо визначати результат як добуток з точно трьох термінів. Однак майно може бути використане, якщо корисно.
- Квадратний корінь : квадратний корінь, від x до = sqrt (x), - це перетворення з помірним впливом на форму розподілу: він слабший, ніж логарифм і корінь куба. Він також застосовується для зменшення прямої косості, а також має ту перевагу, що його можна застосувати до нульових значень. Зауважте, що квадратний корінь площі має одиниці довжини. Він зазвичай застосовується до підрахованих даних, особливо якщо значення здебільшого досить малі.х(1 / 2 )
- Квадрат : Квадрат, від x до , має помірний вплив на форму розподілу, і він може бути використаний для зменшення косого зліва. На
практиці основною причиною його використання є підгонка відповіді
квадратичною функцією . Квадратика має
точку повороту - максимум чи мінімум, хоча точка повороту функції, пристосованої до даних, може бути далеко за межі
спостережень. Відстань тіла від початку є квадратичною, якщо тіло рухається при постійному прискоренні, що дає дуже
чітке фізичне обґрунтування для використання квадратичного. Інакше
квадратика зазвичай використовується виключно тому, що вони можуть імітувати aх2
у= a + b x + c x2
взаємозв'язок у регіоні даних. Поза межами цього регіону вони можуть
вести себе дуже погано, оскільки вони приймають довільно великі значення для екстремальних значень x, і якщо тільки перехоплення a не обмежене 0, вони можуть поводитись нереально близькими до початку.
- Шкіряння зазвичай має сенс лише в тому випадку, якщо відповідна змінна дорівнює нулю або додатній, враховуючи, що і однакові.( - х )2х2