Мультиколінеарність, коли індивідуальні регресії суттєві, але ВІФ низькі


13

У мене є 6 змінних ( ), які я використовую для прогнозування . Виконуючи аналіз даних, я спершу спробував багаторазову лінійну регресію. З цього значення мали лише дві змінні. Однак, коли я провів лінійну регресію, порівнюючи кожну змінну окремо з , всі, крім однієї, були значущими ( десь від менш ніж 0,01 до менше 0,001). Висловлювалося припущення, що це пов'язано з мультиколінеарністю. y y px1...x6yyp

Мої початкові дослідження з цього приводу дозволяють перевірити наявність мультиколінеарності за допомогою VIF . Я завантажив відповідний пакет з R і закінчив отримані VIF: 3.35, 3.59, 2.64, 2.24 та 5.56. Згідно з різними джерелами в Інтернеті, то, про що ви повинні турбуватися щодо мультиколінеарності з вашими ВІФ, знаходиться або в 4, або в 5.

Зараз я наткнувся на те, що це означає для моїх даних. У мене чи у мене немає проблеми з мультиколінеарністю? Якщо я це роблю, то як слід діяти? (Я не можу зібрати більше даних, і змінні - це частина моделі, яка, очевидно, не пов'язана). Якщо у мене немає цієї проблеми, то що мені слід брати з моїх даних, особливо про те, що ці змінні дуже важливі індивідуально, але зовсім не суттєво при їх поєднанні.

Редагувати: Були задані деякі запитання щодо набору даних, тому я хотів би розширити ...

У цьому конкретному випадку ми хочемо зрозуміти, як конкретні соціальні сигнали (жест, погляд тощо) впливають на ймовірність того, що хтось створить якийсь інший реплік. Ми хотіли б, щоб наша модель включала всі важливі атрибути, тому мені незручно видаляти деякі, які здаються зайвими.

Наразі з цим немає жодних гіпотез. Швидше проблема не вивчена, і ми прагнемо краще зрозуміти, які атрибути важливі. Наскільки я можу сказати, ці атрибути повинні бути відносно незалежними один від одного (ви не можете просто сказати, що погляд і жести однакові, або один підмножина іншого). Було б непогано мати можливість звітувати про значення p для всього, оскільки ми хотіли б, щоб інші дослідники зрозуміли, що було розглянуто.

Редагувати 2: Оскільки воно з’явилося десь внизу, моєму є 24 роки.n


Припускаючи , що ви дійсно маєте мультіколлінеарності, ви можете розширити, як і @ rolando2 передбачає, по прямому призначенню моделі? Чи трапляється так, що всі прогнози мають важливе значення для інших слідчих (у такому випадку ви хочете повідомити про рівень значущості для кожного з них), чи можете ви просто викинути один або два з них?

@jlovegren Я додав інформацію трохи вище, повідомте мені, якщо вам потрібна додаткова інформація.
cryptic_star

Чи пояснювані змінні вимірюються безперервно? У такому випадку існують методи резидалізації, які не надто складно. Якщо вони категоричні, я не знаю, але сподіваюся, що хтось інший зробив би (я задав подібне запитання на цьому сайті).

@jlovegren П'ять із шести змінних - це кількість.
cryptic_star

ще одне, просто щоб бути впевненим. чи мають підрахунки чітку верхню межу, яка часто досягається, або якщо максимальне значення підрахунку в принципі не обмежене?

Відповіді:


18

Щоб зрозуміти, що можна продовжувати, доцільно генерувати (та аналізувати) дані, які ведуть себе описаним чином.

Для простоти забудемо про ту шосту незалежну змінну. Отже, питання описує регресії однієї залежної змінної проти п'яти незалежних змінних x 1 , x 2 , x 3 , x 4 , x 5 , в якихyx1,x2,x3,x4,x5

  • Кожна звичайна регресія є значущою на рівнях від 0,01 до менше 0,001 .yxi0.010.001

  • Множинна регресія дає значні коефіцієнти лише для x 1 і x 2 .yx1++x5x1x2

  • Усі коефіцієнти інфляції дисперсії (VIF) низькі, що вказує на хорошу умову в проектній матриці (тобто відсутність колінеарності серед ).xi

Зробимо це так:

  1. Створити нормально розподілених значень для x 1 та x 2 . (Виберемо п. Пізніше.)nx1x2n

  2. Нехай де ε незалежна нормальна похибка середнього значення 0 . Деякі спроби та помилки потрібні, щоб знайти відповідне стандартне відхилення для ε ; 1 / +100 працює відмінно (і вельми драматично: у є дуже добре корелюють з х 1 і х 2 , незважаючи на те, що тільки помірно корелює з х 1 і х 2 індивідуально).y=x1+x2+εε0ε1/100yx1x2x1x2

  3. Нехай = х 1 / 5 + δ , J = 3 , 4 , 5 , де δ не залежить стандартна нормальна помилка. Це робить x 3 , x 4 , x 5 лише незначно залежними від x 1 . Однак, завдяки жорсткій кореляції між x 1 і y , це викликає крихітну кореляцію між y і цими x j .xjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

Ось руб: якщо ми зробимо досить великими, ці незначні кореляції призведуть до значних коефіцієнтів, хоча y майже повністю "пояснюється" лише першими двома змінними.ny

Я виявив, що працює чудово для відтворення повідомлених p-значень. Ось матриця розсіювання всіх шести змінних:n=500

спам

Перевіряючи правий стовпець (або нижній рядок), ви можете бачити, що має хорошу (позитивну) кореляцію з x 1 та x 2, але мало очевидна кореляція з іншими змінними. Оглядаючи решту цієї матриці, можна побачити, що незалежні змінні x 1 , , x 5 видаються взаємно некоррельованими (випадкова δyx1x2x1,,x5δмаскуємо крихітні залежності, які ми знаємо, є.) Немає виняткових даних - нічого страшного відстороненого або з високим важелем. Гістограми показують, що всі шість змінних, до речі, розподіляються приблизно нормально: ці дані є такими ж звичайними та "звичайними ванілями", як можна було б хотіти.

У регресії проти x 1 і x 2 значення p по суті становлять 0. В окремих регресіях y проти x 3 , тоді y проти x 4 , і y проти x 5 , р-значення 0,0024, 0,0083 , і 0,00064 відповідно: тобто вони є "дуже значущими". Але при повній множинній регресії відповідні значення p надуваються відповідно до .46, .36 та .52: зовсім не значущі. Причиною цього є те, що одного разу y регресував проти x 1 і xyx1x2yx3yx4yx5yx1 , єдиний матеріал, який залишається "пояснити", - це невелика кількість помилок у залишках, яка буде приблизна ε , і ця помилка майже повністю не пов'язана з рештою x i . ("Практично" правильно: існує дійсно крихітна залежність, викликана тим, що залишки були обчислені частково зі значень x 1 і x 2, а x i , i = 3 , 4 , 5 , мають слабке значення відношення до x 1 і x 2. Це залишкове відношення практично не виявляється, хоча, як ми бачили.)x2εxix1x2xii=3,4,5x1x2

Кількість кондиціонерів дизайнерської матриці становить лише 2,17: це дуже низько, що не свідчить про високу мультиколінеарність. (Ідеальна відсутність колінеарності відображатиметься в умовному числі 1, але на практиці це спостерігається лише за допомогою штучних даних та розроблених експериментів. Число кондиціонування в діапазоні 1-6 (або навіть вище, з більшою кількістю змінних) є не примітними.) Це завершує моделювання: воно успішно відтворило кожен аспект проблеми.

Важливі відомості, які пропонує цей аналіз, включають

  1. p-значення нічого не говорять нам прямо про колінеарність. Вони сильно залежать від кількості даних.

  2. Взаємозв'язки між р-значеннями в декількох регресіях і р-значеннями в споріднених регресіях (за участю підмножини незалежної змінної) є складними і зазвичай непередбачуваними.

Отже, як стверджували інші, p-значення не повинні бути вашим єдиним керівництвом (або навіть вашим головним керівництвом) щодо вибору моделі.


Редагувати

Для появи цих явищ не потрібно, щоб було таким же великим, як 500 . n500 Натхненний додатковою інформацією у запитанні, далі - це набір даних, побудований аналогічно (у цьому випадку x j = 0,4 x 1 + 0,4 x 2 + δ для j = 3 , 4 , 5 ). Це створює кореляції від 0,38 до 0,73 між х 1 - 2 та х 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. Номер умови матриці дизайну - 9,05: трохи високий, але не страшний. (Деякі правила визначають , що кількість умов, що дорівнюють 10, відповідає нормі. P-значення окремих регресій проти становлять 0,002, 0,015 та 0,008: від значущого до високого значення. Таким чином, є певна мультиколінеарність, але вона не настільки велика, щоб можна було її змінити. Основне розуміння залишається тим самимx3,x4,x5: значимість та багатоколінність - це різні речі; серед них лише м'які математичні обмеження; і можливо включення або виключення навіть однієї змінної мати глибокий вплив на всі р-значення, навіть без серйозної мультиколінеарності.

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

З огляду на те, що я працюю над поясненням зв’язків між цими змінними та їх важливістю для прогнозування y, чи не відповідає відсутність колінеарності мені, що сказала мені початкова множинна лінійна регресія: що важливі лише дві змінні? Якщо змінні виявляли колінеарність, то це означало б, що кілька важливих, але вони надають аналогічну інформацію? Будь ласка, дайте мені знати, якщо я повністю пропускаю суть - я аж ніяк не експерт із статистики.
cryptic_star

О, і я додам це до свого оригінального допису, але мій п - 24 (людська тематика працює, тому це досить високо). Виходячи з вашої публікації, я можу припустити, що саме тому мультиколінеарності пропонують отримати більше даних - щоб краще висвітлити відмінності.
cryptic_star

n=24

1
По-перше, ваш коментар: колінеарність передбачає, що деякі пояснювальні змінні (IV) можуть бути зайвими, але це не обов'язково . Важливі стосунки між IV та залежною змінною (DV). Можливо, що один із IV може бути сильно залежним від інших IV, проте він містить унікально корисну інформацію, що стосується DV. Це критична концепція: жоден обсяг аналізу взаємозв'язків між IV-цими особами не збирається розповісти, які змінні найкраще пояснюють DV. Відсутність колінеарності - властивості виключно IV-го - не свідчить нічого про DV.
whuber

9

У мене чи у мене немає проблеми з мультиколінеарністю? Якщо я це роблю, то як слід діяти?

Це не те чи інше. І я скептично ставляться до настанови "4 або 5". Для кожного з ваших прогнозів стандартна похибка коефіцієнта в межах від 2,2 до 5,6 разів більша, ніж якщо б предиктор не співвідносився з іншими. А частка даного предиктора, яку не можна пояснити іншими, становить від 1 / 2,2 до 1 / 5,6, або 18% до 45%. Загалом, це здається досить великою кількістю колінеарності.

Але давайте відступимо на хвилину. Ви справді намагаєтесь передбачити * Y *, на відміну від спроб пояснити це? Якщо перший, то я не думаю, що вам потрібно дбати про те, чи змінюється рівень значущості даної змінної, коли інші є в моделі. Ваша робота насправді набагато простіша, ніж це було б, якби потрібні справжні пояснення.

Якщо пояснення - ваша мета, вам потрібно буде розглянути спосіб взаємозв'язку цих змінних - щось, що вимагає більше, ніж статистична інформація. Ясно , що вони перекривають один одного так , як вони ставляться до Y , і це коллинеарности буде важко встановити, наприклад, їх ранг порядок значущості в обліку Y . У цій ситуації для вас немає жодного чіткого шляху.

У будь-якому випадку, я сподіваюся, ви розглядаєте методи перехресної перевірки.


Ця відповідь, як і у Джона, здається, плутає низькі значення р з високою кореляцією. Пам'ятайте: стандартні похибки коефіцієнтів зменшуються зі збільшенням кількості даних ( caeteris paribus ), тому низькі р-значення можна досягти з даними, які майже не мають кореляції, за умови наявності достатньої кількості спостережень.
whuber

Плутати низькі значення p з високою кореляцією? Pas du tout!
rolando2

Тоді, будь ласка, поясніть, як суворо поняття p-значення ("стандартна похибка коефіцієнта становить від 2,2 до 5,6 разів більша, ніж це було б, якби предиктор не співвідносився з іншими") приводить вас до висновку "що здається досить суттєвим кількість колінеарності, "яка сильно пов'язана з кореляцією (міри колінеарності - це властивості кореляційної матриці, коли змінні стандартизовані).
whuber

Я дивлюся на це так. Коли показник VIF становить 5,6, 82% дисперсії цього прогноктора можуть бути приписані іншими прогнокторами. Я не бачу, як це може залежати від N.
rolando2

1
Як контрапункт цій песимістичній оцінці (яка має певні обґрунтування в основних правилах, таких як вимагання в 5-10 разів більше спостережень, ніж змінних), слід зазначити, що цілі галузі моделювання та аналізу даних виросли навколо проблем, які мають мало спостереження та багато предикторів, таких як DACE (проектування та аналіз комп'ютерних експериментів). Дивіться ресурси-actuarielles.net/EXT/ISFA/1226.nsf/… для випускного документу.
whuber

6

Ви маєте мультиколінеарність. Ваш початковий аналіз продемонстрував це. Наскільки це проблема, це ще одне питання, на яке, здається, є багато відповідей у ​​вашому випадку.

Можливо, якщо ви отримаєте основне питання краще, було б очевидніше, що робити? ...

Завдяки мультиколінеарності ваші коефіцієнти регресії визначають унікальний (набагато ближче до унікального) внесок кожної змінної у вашу модель. Якщо деякі співвідносяться один з одним, то кожен унікальний внесок кожного співвіднесеного менший. Це, мабуть, частково, чому жодне не є важливим, коли вони всі разом, але коли вони використовуються в поодинці, вони можуть бути.

Перше, що вам, ймовірно, потрібно зробити, - це врахувати, що означає взаємозв'язок між вашими змінними. Наприклад, у вас є купа змінних, які просто стоять за одне і те ж? Чи траплялось вам просто виміряти ваших прогнозів за поганою шкалою та отримати випадкові кореляції? Не намагайтеся виправити регресію, намагайтеся зрозуміти свої змінні.

Розглянемо X1 і X2 з дуже сильною кореляцією між ними, скажімо, r = 0,90. Якщо ви помістите X1 в модель, і вона є важливим передбачувачем, то ймовірно, що інша модель лише з X2 буде значною, оскільки вони майже те саме. Якщо ви об'єднаєте їх у модель разом, хоча б один з них повинен постраждати, оскільки множинна регресія вирішить їх унікальний внесок. Вони можуть бути незначними. Але це не суть, справа в тому, щоб визнати, чому вони так сильно перекриваються і якщо вони навіть кажуть щось інше одне від одного, і чи потрібні вони вам чи ні? Можливо, один висловлює ідею, більш змістовно та більш пов’язану із змінною вашої відповіді, ніж інша. Можливо, ви зробите висновок, що вони однакові з різними рівнями мінливості.

Також, дивлячись на моделі будь-якого виду, але особливо з взаємопов'язаними прогнозами, значення p - це жахливий спосіб сказати, чи має новий прогноктор вагомий внесок (якщо це те, що ви намагаєтесь зробити ... не впевнене, що ви Ви намагаєтеся зробити це, тому що це здається, що ви просто намагаєтесь зробити регресію або A) простою, або B) вийти так, як вам хочеться (жодне з яких неможливо). Вам, мабуть, найкраще дивитися на AIC, щоб допомогти вам визначити, які прогнози вам слід зберегти, а які нічим не сприяють.


Як низькі значення р демонструють мультиколінеарність? Дві концепції абсолютно різні. Маючи достатню кількість даних, ви можете мати низькі значення p і майже взагалі немає колінеарності.
whuber

Це саме те, що я заперечую, Джон: у першому реченні ви зробили висновок, що те, що описує ОП, означає "у вас мультиколінеарність". Але це саме те, що хоче знати ОП: "У мене чи у мене немає проблеми з мультиколінеарністю"? Я стверджую, що правильна відповідь - ви не дали нам достатньо інформації, але, мабуть, не так, тому що явища, описані в питанні, цілком відповідають чітко обумовленим проблемам. Дійсно, низькі ВІФ, про які повідомляє ОП, говорять про те, що ваше твердження є помилковим.
whuber

Я ніде цього не казав. Можливо, ви маєте на увазі те, що я сказав про початковий аналіз. Початковий аналіз полягав у тому, що ефекти сильно змінюються залежно від того, які ще ефекти були додані. Це було пов'язано з мультиколінеарністю (хоча це не кількісно оцінює). Звичайно, значення - це інше питання. Я справді не знаю, до чого ти звертаєшся?
Іоанн

Вибачте Вюбер за оновлення коментаря, але у вас все одно працює чудово .... читачі, останні два вище перетворені, і я винен. Вюбер, я був просто зосереджений на слові "проблема". Мультиколінеарність - це те, що ви кількісно оцінюєте. Є деякі. Це пропонує важко задуматися над змінними незалежно. Це також дозволяє припустити, що причини передбачувальних прихильників змінюються при додаванні або видаленні, зумовлені цією мультиколінеарністю. У мене не склалося враження, що запитуючий дуже хотів, щоб відповідь про це була "проблема" розрахунку.
Іван,

Можливо, ми інтерпретуємо питання по-різному, Джон. Оскільки я не хочу залишати це питання, можливо, заплутаним моїми коментарями тут, я додав відповідь, щоб пояснити свою думку.
whuber

2

Особисто я використовував би індекси умов та таблицю пояснення дисперсії для аналізу колінеарності.

Я б також не використовував значення p як критерій для побудови моделі, і, порівнюючи моделі з 6 IV з моделями з 1, я би переглянув зміни розміру ефекту параметра для змінної, яка є обома.

Але ви, звичайно, можете мати результати, які ви згадали, без колінеарності. Колінеарність стосується лише змінних X та їх взаємозв'язку. Але дві змінні можуть обидво сильно відноситись до Y, не сильно стосуючись одна одну.


1
Мені це здається неінтуїтивним, що дві змінні можуть сильно співвідноситися з Y, не сильно стосуючись один одного. Чи є приклад, який ви могли б мені вказати, чи довше пояснення?
cryptic_star

@ Петер - з 1- (1 / 5.6) = 82% відхилення в останньому прогнокторі, поясненому іншими, чому ви вважаєте, що може не бути колінеарності?
rolando2

3
x1x2y=x1+x2yx1x2x1x2

0

Щодо мультиколінеарності, то різні порогові значення, які зазвичай сходяться навколо VIF 10, відповідають базовому значенню R Square 0,90 між тестованою змінною та іншими незалежними змінними. VIF ваших змінних здається прохідними, і ви технічно можете їх утримувати в моделі.

Тим не менш, я б скористався методом поетапної регресії, щоб побачити, яка найкраща комбінація змінних і скільки більше пояснень (поступового збільшення площі R) ви отримуєте, додаючи змінні. Арбітражним орієнтиром повинно бути значення Налагоджений квадрат R, яке коригує значення R Квадрат вниз шляхом покарання моделі додавання змінних.

Ваші змінні дещо співвідносяться між собою. Це неминуче, це лише питання ступеня. З огляду на VIF, які ви згадуєте, я інтуїтивно підозрюю, що ви отримаєте переважну більшість біт інформації / пояснень з найкращої комбінації змінних 2 І те, що додавання змінних може додавати лише граничне додаткове значення.

Дивлячись на комбінацію змінних, обраних методом ступінчастої регресії, я також би розглядав, які змінні обрані, і якщо ознаки їх коефіцієнта регресії відповідають їх кореляції з y. Якщо їх немає, це може бути пов’язано з законною взаємодією між змінними. Але це також може бути результатом надмірного оснащення та коефіцієнтами регресії помилковими. Вони відображають математичну форму, але безглуздо з точки зору основної причинності.

Інший спосіб вибору змінних - це визначити з логічної точки зору, які з них є основними 2 або 3 змінними, які мають бути в моделі. Ви починаєте з них, а потім перевіряєте, скільки додаткової інформації отримуєте, додаючи змінну. Перевірте відрегульовану квадрат R, відповідність коефіцієнта регресії відносно вихідної регресії та очевидно протестуйте всі моделі з періодом затримки. Досить скоро буде видно, яка ваша найкраща модель.


4
Radj2

Багато проблем, які ви окреслили, є загальними для лінійної регресійної моделі загалом. Я не впевнений, що такі технічні проблеми є причинами викинути всі ступінчасті методи регресії та лінійної регресії в цілому. Мені незрозуміло, чому поетапна регресія "вибирається на основі випадкової величини, що викликає масу проблем". Покрокове підходить найкращим чином, як і будь-яка модель. Я вважаю, що важливіше - переконатися, що математична відповідність відповідає основній теорії або логіці проблеми, яку ви вирішуєте.
Sympa

3
R2Radj2Fp

Гунґ, я не впевнений, що ми говоримо про те саме. Я використовую ступінчату регресію двома способами. Один - це вручну, ви будуєте модель, використовуючи найкращий регресор. І ви додаєте до нього, використовуючи другу кращу змінну, яка найкраще пояснює помилку першої моделі. І ви продовжуєте, поки ваш показник AIC не погіршиться. Я використовував другий метод - це використання програмного забезпечення XLStat, яке автоматизує процес, і було розроблено Тьєррі Фахмі та його командою. У нього я розумію доктор наук з математики разом з іншими членами своєї команди. І я не впевнений, що вони потрапили б у всі згадані вами пастки.
Sympa

2
Гаетан, я думаю, що @gung намагається сказати, що поетапні методи можуть завдати серйозної шкоди початковій статистичній регресійній структурі (функція втрати, значення p тощо). Дивіться відповідь та коментарі Франка Гаррела тут . Штрафована регресія, про яку йдеться в декількох потоках, може бути хорошою альтернативою. "(...) програмне забезпечення, яке автоматизує процес" нагадує мені R fortune(224): тут немає тролів, просто хочу підкреслити, що вам не обов'язково довіряти тому, що програмне забезпечення автоматично надає (або пропонує) вам опцію.
chl

0

Якщо пояснюючі змінні є підрахунок даних, і це не розумно припустити , що вони , як правило , розподілені, ви можете перетворити їх в стандартних нормальних випадкових величин з допомогою R scaleкоманди. Це може зменшити колінеарність. Але це, мабуть, не вирішить усієї проблеми.

Корисна партія команд R для аналізу та боротьби з колінеарністю знайдена у блозі Флоріана Ягер , зокрема:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.Функція перетворює вектор в стандартну нормальну випадкової величину. В r.Функція повертає стандартизовані невязки для регресує один провісник проти іншого. Ви можете використовувати це для ефективного поділу модельного відхилення на різні транші, щоб лише деякі змінні мали доступ до найстарішого траншу, тоді наступний транш буде запропонований до остаточних змінних. (Вибачте за мою домоткану термінологію) Тож якщо модель форми

Y ~ A + B

страждає від мультиколінеарності, тоді ви можете запустити будь-яку з них

Y ~ A + r.(B)
Y ~ r.(A) + B

так що до залишку змінної "молодший транш" (коли вона регресує проти змінної "старший транш") підходять тільки моделі. Таким чином, ви захищені від мультиколінеарності, але маєте більш складний набір параметрів для повідомлення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.