Де спільна дисперсія між усіма IV в лінійному множинні рівняння регресії?


10

Якщо лінійне множинне регресійне рівняння, якщо бета-ваги відображають внесок кожної окремої незалежної змінної понад і внесок усіх інших IV, де в рівнянні регресії є дисперсія, поділена на всі IV, що прогнозує DV?

Наприклад, якщо діаграма Венна, відображена нижче (і взята зі сторінки "про" CV тут: https://stats.stackexchange.com/about ), позначається як 3 IV та 1 DV, де б входила область із зірочкою в рівняння множинної регресії?

введіть тут опис зображення


4
Я не бачу тут потреби в голосі. Я думаю, що це питання набуває того, що відбувається в результаті багаторазової регресії на фундаментальному рівні, і пропонує можливість пояснити щось про ЗМ, що інакше ніколи не буде обговорюватися.
gung - Відновіть Моніку

Відповіді:


8

Щоб зрозуміти, що ця діаграма може означати, ми повинні визначити деякі речі. Скажімо, що діаграма Венна відображає перекриваючу (або спільну) дисперсію між чотирма різними змінними, і ми хочемо передбачити рівень , використовуючи наші знання про , та . Тобто ми хочемо зменшити невизначеність (тобто дисперсію) у від нульової дисперсії до залишкової дисперсії. Наскільки добре це можна зробити? Це питання, на яке відповідає вам схема Венна . WikiDiggForumBlogWiki

Кожне коло являє собою набір точок і, отже, кількість дисперсії. Здебільшого нас цікавить дисперсія уWiki, але на малюнку також відображаються відхилення в прогнозах. Про нашу фігуру слід помітити кілька речей. По-перше, кожна змінна має однакову кількість дисперсії - всі вони однакового розміру (хоча далеко не всі будуть використовувати діаграми Венна зовсім так буквально). Крім того, існує однакова кількість перекриттів, тощо, і т. Д. Важливіше, що слід помітити, - це велика кількість перекриттів серед змінних прогнозів. Це означає, що вони співвідносяться. Така ситуація дуже часто зустрічається при роботі з вторинними (тобто архівними) даними, спостережними дослідженнями або реальними сценаріями прогнозування. З іншого боку, якби це був розроблений експеримент, це, мабуть, означало б поганий дизайн або виконання. Щоб продовжити цей приклад трохи довше, ми можемо побачити, що наша здатність до прогнозування буде помірною; більшість варіабельності вWiki залишається залишковою мінливістю після того, як були використані всі змінні (я думаю, що ). Інша справа, слід зазначити, що після того , як і були введені в модель, пояснює ні мінливість в .R2.35DiggBlogForumWiki

Тепер, після встановлення моделі з декількома прогнозами, люди часто хочуть перевірити ці предиктори, щоб перевірити, чи пов’язані вони з змінною відповіді (хоча не ясно, що це так важливо, як люди, здається, вважають, що це є). Наша проблема полягає в тому, що для перевірки цих предикторів ми повинні розділити суму квадратів , і оскільки наші прогнози є корельованими, є СС, які можна віднести до більш ніж одного провісника. Насправді, у зорі зірочкою СС можна було віднести до будь-якого з трьох прогнозів. Це означає, що не існує єдиного розділу SS, і, отже, немає унікального тесту. Як вирішується це питання, залежить від типу СС, який використовує дослідник таінші судження, зроблені дослідником . Оскільки багато програмних програм за замовчуванням повертають тип III SS, багато людей викидають інформацію, що міститься в регіонах, що перекриваються, не усвідомлюючи, що вони здійснили судовий виклик . Я пояснюю ці питання, різні типи СС і тут детально розглядаю деталі .

Зазначене питання, зокрема, задає питання про те, де все це відображається в рівнянні бета / регресія. Відповідь - це не так. Деякі відомості про це містяться у моїй відповіді тут (хоча вам доведеться трохи прочитати між рядків).


Привіт Гунг, Дякую за Ваш допис. Це дуже цікаво і відкрило мені очі в деяких областях. Однак у мене виникають проблеми з читанням між рядками публікації, з якою ви пов’язані. Отже, моє питання залишається: у лінійному рівнянні множинної регресії, якщо бета-ваги відображають внесок кожної окремої незалежної змінної, що перевищує внесок усіх інших IV, де в рівнянні регресії є дисперсія, поділена на всі IV, що прогнозує DV?
Joel W.

Так, це буде досить важко помітити. Справа в тому, що між питанням 1 про те, як розділити SS для тестування, і 2, що оцінює бета-версії, є принципова різниця. 1 стосується віднесення СС до цього прогноктора; 2 вибирає оптимальні значення для бета. Перекриття виявляється в першому, а не в другому. Якщо ви регресували на & збережених залишках, а потім передбачили ці залишки на та збережені резиденти-2 та ін. Але Mult Reg оцінює всі бета-версії одночасно , тому вони не відображаються. WikiDiggForum
gung - Відновіть Моніку

Якщо "Перекриття виявляється в першому, а не в другому", як рівняння регресії може відображати спільну дисперсію? Якщо бета-версії вказують внесок кожного IV, коли ефекти всіх інших ІV статистично усуваються, то яка частина формули регресії відображає передбачувальну силу видаленої спільної дисперсії? Або, як може рівняння регресії показати, що трапиться з передбачуваним Y, якщо збільшити один з IV на 1, якщо накладення не відображено в бета-версії? Третє питання: в MR-аналізі даних, що лежать в основі діаграми Венна, Форум бета = 0?
Джоель В.

Перекриття є в тесті , а не бета - я не впевнений, як ще це зробити. Кожна бета-версія позначає вплив на змінну реакції зміни 1-одиниці коваріату, при цьому все інше має бути постійним ; дана бета-версія майже точно не була б такою ж, якби інші коваріати були вилучені з моделі. Якщо діаграма Венна точно відображає істинний процес генерації даних, то справжнє значення для , але емпіричні оцінки, як правило, ніколи точно не дорівнюють 0. βF=0
gung - Відновіть Моніку

1
@MarkWhite, відповідь студента здебільшого гаразд. Заява про те, що коли X1 та X2 ідеально співвідносяться, їх бета наполовину є невірним; коли r = 1 модель не вдається визначити (див. тут ). Оскільки г наближається до 1, розрахункові бета будуть залежати від співвідношень у даних вибірки і можуть значно варіюватися від вибірки до вибірки.
gung - Відновіть Моніку

5

Пітер Кеннеді в своїй книзі та статті про JSE має приємний опис діаграм Баллентіна / Венна для регресу , включаючи випадки, коли вони можуть збити вас з глузду.

Суть полягає в тому, що зоряне зміна ділянки викидається лише для оцінки та перевірки коефіцієнтів нахилу. Ця зміна додається ще з метою прогнозування та обчислення .R2


+1, я додав би "для оцінки" та тестування "коефіцієнтів нахилу", але питання про його включення до є хорошим. R2
Гун - відновить Моніка

Дійсно і зроблено.
Мастеров Дмитро Васильович

Чи використовується зона зірки для обчислення прогнозованого y? Якщо так, то де у формулі прогнозування область зірки вносить внесок у передбачуваний y? По-різному, який термін або терміни у формулі передбачення відображають область зірки?
Joel W.

3

Я усвідомлюю, що це (дуже) датований потік, але оскільки на цьому тижні один із моїх колег задав мені це саме запитання, і в Інтернеті нічого не знайшов, що я міг би вказати йому, я подумав, що додав би два центи "за нащадків" тут. Я не переконаний, що надані на сьогодні відповіді відповідають на питання ОП.

Я збираюся спростити проблему із залученням лише двох незалежних змінних; це дуже прямо вперед, щоб розширити його на більш ніж два. Розглянемо наступний сценарій: дві незалежні змінні (X1 і X2), залежна змінна (Y), 1000 спостережень, дві незалежні змінні сильно корелюються між собою (r = .99), і кожна незалежна змінна корелює із залежною змінна (r = .60). Не втрачаючи загальності, стандартизуйте всі змінні до середнього нуля і стандартного відхилення одиниці, так що термін перехоплення буде нульовим у кожній з регресій.

Проведення простої лінійної регресії Y на X1 дасть r-квадрат у розмірі .36 та b1 значення 0,6. Аналогічно, виконання простої лінійної регресії Y на X2 дасть r-квадрат у розмірі .36 та b1 значення 0,6.

Запустивши кратну регресію Y на X1 і X2, вийде r-квадрат, який є лише на трохи більше, ніж в 36, і b1 і b2 приймають значення 0,3. Таким чином, спільна варіація у Y фіксується в BOTH b1 і b2 (порівну).

Я думаю, що ОП, можливо, зробила помилкове (але цілком зрозуміле) припущення: а саме, оскільки X1 і X2 наближаються до ближнього співвідношення, їх b-значення в рівнянні множинної регресії все ближче і ближче до ZERO. Це не так. Насправді, коли X1 і X2 наближаються і наближаються до ідеальної кореляції, їх b-значення в множинній регресії наближаються до HALF значення b в простому лінійному регресії будь-якого з них. Однак, оскільки X1 і X2 наближаються і наближаються до ідеальної кореляції, СТАНДАРТНА ПОМИЛКА b1 і b2 рухається все ближче і ближче до нескінченності, тому значення t сходяться на нулі. Отже, значення t будуть збігатися на нулі (тобто немає УНІКАЛЬНОЇ лінійної залежності між X1 та Y або X2 і Y),

Отже, відповідь на питання ОП полягає в тому, що, коли кореляція між X1 і X2 наближається до єдності, EACH коефіцієнтів часткового нахилу підходить однаково, що сприяє прогнозуванню значення Y, хоча жодна незалежна змінна не пропонує жодного Унікального пояснення залежної змінна.

Якщо ви хочете перевірити це емпірично, створіть сфабрикований набір даних (... я використав макрос SAS на ім'я Corr2Data.sas ...), який має характеристики, описані вище. Перевірте значення b, стандартні помилки та значення t: ви побачите, що вони точно такі, як описано тут.

HTH // Phil


1
Це фантастичне пояснення, дякую. Я спробував імітувати різні ситуації в R, і я дійшов висновку, що ви не можете позбутися спільної змінної, якщо n занадто велика, або якщо кореляція між висновком (Y) і спільною компонентною мережею (X1 і X2 ) занадто висока. Але чому б t-значення відображали все, що не є унікальним внеском X1 та X2? Якщо регресійні значення t відображають унікальний внесок предикторів, ми не повинні бачити, що загальна змінність впливає на значення t, але ми це робимо. Чому так?
Галіт
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.