Що робити з колінеарними змінними


11

Відмова: Це для домашнього завдання.

Я намагаюся придумати найкращу модель для ціни на алмази, залежно від кількох змінних, і, здається, поки що у мене досить гарна модель. Однак я зіткнувся з двома змінними, які, очевидно, колінеарні:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

Таблиця та Глибина залежать один від одного, але я все ж хочу включити їх до своєї прогнозної моделі. Я провів кілька досліджень алмазів і виявив, що Таблиця і Глибина - це довжина вгорі і відстань від верху до низу кінчика алмаза. Оскільки ці ціни на алмази, схоже, пов'язані з красою та красою, схоже, пов'язані між собою пропорціями, я збирався включити їх співвідношення, скажімо , щоб передбачити ціни. Це стандартна процедура поводження з колінеарними змінними? Якщо ні, що таке?TableDepth

Редагувати: Ось графік глибини ~ Таблиця: введіть тут опис зображення


1
+1 для цікавого питання, але, ні, це, безумовно, не є стандартною процедурою для роботи з лінійними змінними. Сподіваємось, хтось дасть тобі добру відповідь, чому ні. Це може ще бути хороша річ , щоб зробити в вашому випадку ...
Пітер Елліс

3
Дивно в цьому, здається, співвідношення -0,4 говорить про те, що діаманти, які довші вгорі, коротші від верху до низу. Це здається протиінтуїтивним - ви впевнені, що це правильно?
Пітер Елліс

Загалом, виявить лише лінійну залежність, чи не так? Що робити, якщо та були нелінійно пов'язаними? У такому випадку, чи є якийсь аналог колініарності, який створює проблему? Або лише проблема лінійної залежності. T a b l e D e p t hcorTableDepth
curious_cat

@PeterEllis Мені сказали, що це справжній набір даних, так. Дивлячись на графік Глибина ~ Таблиця, це може бути тому, що вентилятори дисперсії виходять для високих значень таблиці.
Майк Флінн

Відповіді:


14

Ці змінні співвідносні.

Ступінь лінійної асоціації, що мається на увазі за цією кореляційною матрицею, недостатньо віддалена, щоб змінні вважалися колінеарними.

У цьому випадку я б дуже радий використати всі три ці змінні для типових регресійних програм.

Одним із способів виявити мультиколінеарність є перевірка Чолеського розкладання кореляційної матриці - якщо є мультиколінеарність, будуть деякі діагональні елементи, близькі до нуля. Ось це на власній кореляційній матриці:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(Діагональ завжди повинна бути позитивною, хоча деякі реалізації можуть перейти в негативні наслідки накопичених помилок усічення)

Як бачите, найменша діагональ - 0,91, що все ще довгий шлях від нуля.

На противагу ось деякі майже колінеарні дані:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

Дякую, я думаю, що мене просто плутали між "корельованим" та "колінеарним"
Майком Флінном,

@kingledion Будь ласка, не використовуйте коментарів, щоб намагатися змусити людей відповісти на ваше запитання.
Glen_b -Встановіть Моніку

6

Думаючи, що ця алмазна схема різання може додати розуміння питання. Неможливо додати зображення до коментаря, тому він зробив відповідь ....

введіть тут опис зображення

PS. @ Коментар PeterEllis: той факт, що "алмази, які довші вгорі, коротші від верху до низу", може мати сенс таким чином: Припустимо, що всі необрізані алмази є приблизно прямокутними (скажімо). Тепер різак повинен вибрати свій крій з цим обмежуючим прямокутником. Це вводить компроміс. Якщо збільшиться і ширина, і довжина, ви збираєтеся отримати більші алмази. Можливо, але рідше і дорожче. Мати сенс?


2

Слід уникати використання співвідношень у лінійній регресії. По суті, ви говорите, що якби лінійна регресія була зроблена на цих двох змінних, вони були б лінійно корельовані без перехоплення; це, очевидно, не так. Дивіться: http://cscu.cornell.edu/news/statnews/stnews03.pdf

Крім того, вони вимірюють приховану змінну - розмір (об'єм чи площа) алмазу. Чи планували ви перетворити ваші дані в вимірювання площі поверхні / об’єму, а не включати обидві змінні?

Ви повинні розмістити залишковий графік цієї глибини та дані таблиці. Ваша кореляція між ними може бути недійсною в будь-якому випадку.


1

З кореляції важко зробити висновок, чи Таблиця та Ширина дійсно співвідносяться. Коефіцієнт, близький до + 1 / -1, означає, що вони колінеарні. Це також залежить від розміру вибірки. Якщо у вас є більше даних, використовуйте їх для підтвердження.

Стандартний порядок роботи з колінеарними змінними полягає у усуненні однієї з них, тому що, знаючи, що одна визначає іншу.


1
Я не впевнений, що згоден з цим. Я вважаю, що кореляція r = -. 41, що є розумною величиною для кореляції. Враховуючи ймовірний N (на основі погляду на сюжет), я б очікував, що r буде дуже «значущим». Чи достатньо співвіднесені таблиця та глибина, щоб назвати "колінеарними", це буде питанням визначення (хоча я б і не називав це проблематичною колінеарністю). Нарешті, я б насторожився просто усунути одну зі змінних, якщо тільки r не дуже близький до | 1 | (наприклад, ~ .99) - я не можу сказати, чи це ви маєте на увазі.
gung - Відновіть Моніку

1

Що ви думаєте, що таблиця та глибина викликають колінеарність у вашій моделі? Тільки з матриці кореляції важко сказати, що ці дві змінні спричинять проблеми колінеарності. Що спільний тест F говорить про внесок обох змінних у вашу модель? Як згадував curious_cat, Пірсон не може бути найкращим показником кореляції, коли відносини не є лінійними (можливо, міра, заснована на ранзі?). ВІФ та толерантність можуть допомогти кількісно оцінити ступінь колінеарності, який ви можете мати.

Я думаю, що ваш підхід використовувати їх співвідношення є відповідним (хоча і не як рішення колінеарності). Побачивши фігуру, я одразу подумав про загальну міру в дослідженні охорони здоров’я, яка стосується талії до стегна. Хоча в цьому випадку більше схожий на ІМТ (вага / зріст ^ 2). Якщо співвідношення легко тлумачиться та інтуїтивно зрозуміло у вашій аудиторії, я не бачу причини не використовувати його. Однак ви, можливо, зможете використовувати обидві змінні у своїй моделі, якщо немає чітких доказів колінеарності.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.