Як вибрати найкращу трансформацію для досягнення лінійності?

Я хочу зробити декілька лінійних регресій, а потім передбачити нові значення з невеликою екстраполяцією. У мене є змінна відповідь у діапазоні від -2 до +7 та три предиктори (діапазони приблизно +10 - +200). Розподіл майже нормальний. Але взаємозв'язок між відповіддю та предикторами не є лінійним, на графіках я бачу криві. Наприклад так: http://cs10418.userapi.com/u17020874/153949434/x_9898cf38.jpg

Я хотів би застосувати трансформацію для досягнення лінійності. Я спробував перетворити змінну відповіді, перевіривши різні функції та переглянувши отримані графіки, щоб побачити лінійний взаємозв'язок між відповіддю та предикторами. І я виявив, що існує багато функцій, які можуть дати мені видимі лінійні відносини. Наприклад, функції

$t_1=\log(y+2.5)$

$t_2=\frac{1}{\log(y+5)}$

$t_3=\frac{1}{y+5}$

$t_4=\frac{1}{(y+10)^3}$

$t_5=\frac{1}{(y+3)^\frac{1}{3}}$ тощо дають подібні результати: http://cs10418.userapi.com/u17020874/153949434/x_06f13dbf.jpg

Після того як я збираюсь перетворити передбачувані значення (для як тощо). Розподілення більш-менш схожі на звичайні. $t=\frac{1}{(y+10)^3}$ $y’=\frac{1}{t^\frac{1}{3}}-10$

Як я можу вибрати найкращі перетворення для своїх даних? Чи існує кількісний (і не дуже складний) спосіб оцінки лінійності? Щоб довести, що вибрана трансформація є найкращою або, якщо можливо, знайти її автоматично.

Або єдиний спосіб - це зробити нелінійну множинну регресію?

regression data-transformation

— надя
джерело

Я хотів покращити форматування ваших формул, але, можливо, ввів деякі помилки - будь ласка, перевірте.

— Пітер Елліс

Я не вірю тобі. Математично неможливо, щоб через одночасно мали лінійний зв’язок із шостою змінною в межах . Я думаю, ви, можливо, помилилися, обчисливши ці перетворення .

t_{1}

$t_1$

t_{5}

$t_5$

0 \dots 200

$0\ldots 200$

y

$y$

— whuber

@whuber Дякую за відповідь. Я зробив сюжети в R cs9579.userapi.com/u17020874/153949434/z_9fa17c02.jpg cs9579.userapi.com/u17020874/153949434/z_7fa6891c.jpg

— nadya

Ти правий. Це досить дивно, що такий широкий діапазон повторних виразів y залишився б у лінійній залежності з r. Дякуємо, що поділилися цим. Якщо ви ділянку залишків, ви побачите , що виглядають приблизно кращим, а потім не потребує в повторному вираженні: .

1 / (y + 5)

$1/(y+5)$

r

$r$ plot(lm(1/(y+5)~r))

— whuber

Відповіді:

Це дещо мистецтво, але є деякі стандартні, прості речі, які завжди можна спробувати.

Перше, що потрібно зробити, це повторно виразити залежну змінну ( ), щоб зробити залишки нормальними. Це не реально застосовано в цьому прикладі, коли точки, схоже, падають по плавній нелінійній кривій з дуже невеликим розсіюванням. Тож переходимо до наступного кроку. $y$

Наступне - повторно виразити незалежну змінну ( ) для лінеаризації відносин. Існує простий, простий спосіб зробити це. Виберіть три репрезентативні точки уздовж кривої, бажано на обох кінцях та посередині. З першої цифри я зачитував упорядковані пари = , і . Без будь-якої іншої інформації, окрім того, що завжди виявляється позитивним, хорошим вибором є вивчення перетворень Box-Cox $r$ $(r,y)$ $(10,7)$ $(90,0)$ $(180,-2)$ $r$ для різних ступенях ,правиловибираютьщоб бути кратні або і зазвичай між і . (Обмежувальне значення знаближенням дорівнює - .) Це перетворення створить приблизну лінійну залежність за умови, що нахил між першими двома точками дорівнює нахилу між другою парою. $r \to (r^p-1)/p$ $p$ $1/2$ $1/3$ $-1$ $1$ $p$ $0$ $\log(r)$

Наприклад, нахили неперетворених даних складають = - і = . Вони зовсім інші: один приблизно в чотири рази більше іншого. Спроба дає нахили $(0-7)/(90-10)$ $0.088$ $(-2-0)/(180-90)$ $-0.022$ $p=-1/2$ ,т.д., які працюють поза доі: тепер один з них тількидва рази більша за іншу, що є удосконаленням. Продовжуючи таким чином (електронна таблиця зручна), я вважаю, щопрацює добре: схили заразта, майже однакове значення. Отже, слід спробувати модель вигляду. Потім повторіть: встановіть рядок, вивчіть залишки, визначте перетворення $(0-7)/(\frac{90^{-1/2}-1}{-1/2}-\frac{10^{-1/2}-1}{-1/2})$ $-16.6$ $-32.4$ $p \approx 0$ $-7.3$ $-6.6$ $y = \alpha + \beta \log(r)$ $y$ зробити їх приблизно симетричними та ітераційними.

Джон Тукі надає деталі та багато прикладів у своїй класичній книзі « Розвідувальний аналіз даних» (Аддісон-Уеслі, 1977). Він наводить подібні (але дещо більш задіяні) процедури для виявлення дисперсій-стабілізуючих перетворень . Один набір даних зразків, який він надає в якості вправ, стосується давніх даних про тиску пари ртуті, виміряні при різних температурах. Дотримуючись цієї процедури, можна повторно розкрити співвідношення Клаус і Клапейрон ; залишки до остаточного пристосування можна інтерпретувати через квантово-механічні ефекти, що виникають на атомних відстанях! $y$

— дзижчати
джерело

Дякую за пораду щодо трансформації Box-Cox. Чи має сенс перевіряти R-квадрат lm (1 / (y + 5) ~ r) та lm інших функцій, а потім порівнювати ці R-квадрати?

— надя

Має сенс, коли rце фіксовано, тому що тоді

є проксі-сервісом для дисперсії залишків. Якщо ви повторно виражаєте (незалежну змінну), то

є марним або оманливим: див. Stats.stackexchange.com/questions/13314/… .

R^{2}

$R^2$ r

R^{2}

$R^2$

— whuber

Велике спасибі за відповідь! Я не збираюсь трансформувати свої незалежні змінні

— nadya

y

$y$

@Erich Кожен шматочок цієї книги глибоко корисний: адже, якщо ти можеш щось зробити з олівцем і папером, ти можеш запрограмувати комп’ютер, щоб це зробити :-). За допомогою однієї змінної часто приємно перетворити її на симетрію (її емпіричний розподіл); Туке називає це "маленькою угодою". Простий спосіб ідентифікації такої трансформації описаний у розділі 3E "Швидко дивлячись". Це ілюструє те, що можна дізнатися з огляду на резюме N-літер (Tukey пропонує підсумок 7- або 9 літер). Набуття цієї навички цінніше, ніж наявність комп'ютерної програми, виконайте розрахунки за вас.

— whuber

Якщо ваша змінна відповідь (а точніше, те, що стане залишками вашої змінної відповіді) в оригінальній шкалі має нормальне розподіл, як ви розумієте, то перетворення її для створення лінійного зв’язку з іншими змінними означатиме, що вона більше не є нормальною і це також змінить співвідношення між його дисперсією та середніми значеннями. Отже, з тієї частини Вашого опису, я думаю, вам краще використовувати нелінійну регресію, ніж трансформувати відповідь. В іншому випадку після лінійного перетворення відповіді вам знадобиться більш складна структура помилок (хоча це може бути справою судження, і вам потрібно буде перевірити, використовуючи графічні методи).

Альтернативно, досліджуйте трансформацію пояснювальних змінних. Крім прямих перетворень, ви також можете додавати у квадратичному виразі.

Загалом, трансформація - це більше мистецтво, ніж наука, якщо немає існуючої теорії, яка б підказала, що слід використовувати як основу трансформації.

— Пітер Елліс
джерело