Чи є якась причина того, що я можу придумати, щоб перетворити дані квадратним коренем? Я маю на увазі те, що я завжди спостерігаю, це те, що R ^ 2 збільшується. Але це, мабуть, лише через центрування даних! Будь-яка думка цінується!
Чи є якась причина того, що я можу придумати, щоб перетворити дані квадратним коренем? Я маю на увазі те, що я завжди спостерігаю, це те, що R ^ 2 збільшується. Але це, мабуть, лише через центрування даних! Будь-яка думка цінується!
Відповіді:
Взагалі параметрична регресія / GLM припускають, що взаємозв'язок між змінною і кожною змінною X лінійний, що залишки, коли ви встановили модель, дотримуються нормального розподілу і що розмір залишків залишається приблизно однаковим весь час уздовж встановлених ліній. Якщо ваші дані не відповідають цим припущенням, перетворення можуть допомогти.
Слід інтуїтивно зрозуміти, що якщо пропорційний X 2, то прямокутний коріньлінеаризує цю залежність, що призводить до моделі, яка краще відповідає припущенням, і що пояснює більшу дисперсію (має більшу R 2 ). Квадратне вкорінення Y також допомагає, коли у вас виникає проблема, що розмір ваших залишків поступово збільшується в міру ваших значень Xзбільшення (тобто розкидання точок даних навколо пристосованої лінії стає більш помітним, коли ви рухаєтесь по ньому). Подумайте про форму квадратної кореневої функції: вона спочатку круто збільшується, але потім насичує. Таким чином, застосування квадратного перетворення кореня надуває менші числа, але стабілізує більші. Таким чином, ви можете подумати про це як проштовхування малих залишків при низьких значеннях подалі від пристосованої лінії та накручування великих залишків при високих значеннях X у бік лінії. (Це ментальна стенограма, не належна математика!)
Як кажуть Дмитрій та Окрам, це лише одна можлива трансформація, яка допоможе за певних обставин, а такі інструменти, як формула Box-Cox, можуть допомогти вам вибрати найбільш корисну. Я б радив увійти в звичку завжди дивитися на ділянки залишків проти встановлених значень (а також звичайну графіку ймовірності або гістограму залишків), коли ви підходите до моделі. Ви часто виявите, що зможете побачити з них, яка трансформація допоможе.
Однак це апріорне фіксоване значення може бути (і, мабуть, є) не оптимальним. У R ви можете розглянути функцію з car
бібліотеки, powerTransform
яка допомагає оцінити оптимальне значення для перетворень Box-Cox для кожної зі змінних, що брали участь у лінійній регресії, або будь-яких даних, з якими ви працюєте (див. example(powerTransform)
Докладнішу інформацію).
Коли змінна слід за розподілом Пуассона, результати квадратного кореневого перетворення будуть набагато ближчими до Гаусса.
Матриця відстані, обчислена за допомогою Брей-Кертіса, зазвичай не є метрикою для деяких даних, що призводить до негативних власних значень. Одне з рішень для подолання цієї проблеми - перетворити (логарифмічний, квадратний корінь або подвійний квадратний корінь) його.