Що може бути причиною використання перетворення квадратних коренів на даних?


15

Чи є якась причина того, що я можу придумати, щоб перетворити дані квадратним коренем? Я маю на увазі те, що я завжди спостерігаю, це те, що R ^ 2 збільшується. Але це, мабуть, лише через центрування даних! Будь-яка думка цінується!


Я відповів на це запитання і на більш загальне питання тут stats.stackexchange.com/questions/18844/…
IrishStat

3
Якщо залежна змінна інша, R-квадрати не можна порівняти.

Відповіді:


13

Взагалі параметрична регресія / GLM припускають, що взаємозв'язок між змінною і кожною змінною X лінійний, що залишки, коли ви встановили модель, дотримуються нормального розподілу і що розмір залишків залишається приблизно однаковим весь час уздовж встановлених ліній. Якщо ваші дані не відповідають цим припущенням, перетворення можуть допомогти. YX

Слід інтуїтивно зрозуміти, що якщо пропорційний X 2, то прямокутний коріньYX2лінеаризує цю залежність, що призводить до моделі, яка краще відповідає припущенням, і що пояснює більшу дисперсію (має більшу R 2 ). Квадратне вкорінення Y також допомагає, коли у вас виникає проблема, що розмір ваших залишків поступово збільшується в міру ваших значень XYR2YХзбільшення (тобто розкидання точок даних навколо пристосованої лінії стає більш помітним, коли ви рухаєтесь по ньому). Подумайте про форму квадратної кореневої функції: вона спочатку круто збільшується, але потім насичує. Таким чином, застосування квадратного перетворення кореня надуває менші числа, але стабілізує більші. Таким чином, ви можете подумати про це як проштовхування малих залишків при низьких значеннях подалі від пристосованої лінії та накручування великих залишків при високих значеннях X у бік лінії. (Це ментальна стенограма, не належна математика!)ХХ

Як кажуть Дмитрій та Окрам, це лише одна можлива трансформація, яка допоможе за певних обставин, а такі інструменти, як формула Box-Cox, можуть допомогти вам вибрати найбільш корисну. Я б радив увійти в звичку завжди дивитися на ділянки залишків проти встановлених значень (а також звичайну графіку ймовірності або гістограму залишків), коли ви підходите до моделі. Ви часто виявите, що зможете побачити з них, яка трансформація допоможе.


Гей, спасибі! Я знаю функцію boxcox, але мені було цікаво, з яких практичних причин трансформація sqrt має сенс! Дякую!
MarkDollar

1
якщо дисперсія помилок лінійно пов'язана з рівнем ряду, відбувається логарифмічне перетворення. Якщо стандартне відхилення лінійно пов'язане з рівнем ряду, то відбувається перетворення квадратного кореня. Вибір не має нічого спільного з розміром залишків, оскільки він відноситься до рівня y і все, що стосується з'єднання / відключення зв'язку першого та другого моменту.
IrishStat

1
Freya, +1 для розумового скорочення >> належної математики. Чи є ця інтуїція також причиною використання L.5-метрик для кластеризації ?
denis

Привіт Денисе, боюся, я нічого не знаю про кластеризацію.
Freya Harrison

10

λ=0,5

уN(Хβ,σ2Ян)

Однак це апріорне фіксоване значення може бути (і, мабуть, є) не оптимальним. У R ви можете розглянути функцію з carбібліотеки, powerTransformяка допомагає оцінити оптимальне значення для перетворень Box-Cox для кожної зі змінних, що брали участь у лінійній регресії, або будь-яких даних, з якими ви працюєте (див. example(powerTransform)Докладнішу інформацію).


5

Коли змінна слід за розподілом Пуассона, результати квадратного кореневого перетворення будуть набагато ближчими до Гаусса.


Чи можете ви навести якісь аргументи щодо цього твердження?
відверто

Це не дуже допомагає для індивідуального розподілу з конкретним значенням параметра, але робить сімейство розподілу, отримане при зміні параметра, ближче до нормальної сім'ї з постійною дисперсією
kjetil b halvorsen


3

Беручи квадратний корінь, іноді пропонується зробити так, щоб ненормальна змінна виглядала як нормальна змінна в проблемах регресії. Логарифм - це ще одне поширене можливе перетворення.


0

Матриця відстані, обчислена за допомогою Брей-Кертіса, зазвичай не є метрикою для деяких даних, що призводить до негативних власних значень. Одне з рішень для подолання цієї проблеми - перетворити (логарифмічний, квадратний корінь або подвійний квадратний корінь) його.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.