Навіщо нам потрібна багатоваріантна регресія (на відміну від ряду одноманітних регресій)?


28

Я щойно переглянув цю чудову книгу: Прикладний багатоваріантний статистичний аналіз Джонсона та Вічерн . Іронія полягає в тому, що я досі не в змозі зрозуміти мотивацію використання багатоваріантних (регресійних) моделей замість окремих одновимірних (регресійних) моделей. Я переглянув stats.statexchange пости 1 та 2, які пояснюють (a) різницю між багаторазовою та багатоваріантною регресією та (b) інтерпретацію результатів багатоваріантної регресії, але я не в змозі змінити використання багатоваріантної статистичної моделі з усієї інформації, яку я отримати інформацію про них в Інтернеті.

Мої запитання:

  1. Для чого нам потрібна багатоваріантна регресія? Яка перевага під час розгляду результатів одночасно, а не окремо, щоб зробити висновки.
  2. Коли використовувати багатоваріантні моделі та коли використовувати декілька одновимірних моделей (для декількох результатів).
  3. Візьміть приклад, наведений на сайті UCLA з трьома результатами: локус контролю, само-концепція та мотивація. Щодо 1. і 2. Чи можемо ми порівняти аналіз, коли ми робимо три одновимірні множинні регресії проти однієї багатоваріантної множинної регресії? Як виправдати одне над одним?
  4. Я не натрапив на багато наукових праць, які використовують багатовимірні статистичні моделі. Це через припущення про багатоваріантність нормальності, складність пристосування / інтерпретації моделі чи будь-яку іншу конкретну причину?

18
Окремі одновимірні моделі ігнорують кореляції.
jwimberley

3
Так, у світі є багато явищ, які неможливо змоделювати незалежними випадковими змінними.
Майкл Р. Черник

2
@jwimberley Чи можете ви відповісти на наслідки ігнорування цих співвідношень?
Джейк Вестфалл

2
Лише примітка до назви: зменшення розмірності (PCA, факторний аналіз, будь-який нелінійний метод тощо) та кластеризація зазвичай також вважаються "багатоваріантними" методами. Здається, ваше запитання зосереджене саме на багатоваріантній регресії (порівняно з купою одноваріантних регресій), тому я пропоную вам поставити її безпосередньо у свою назву. +1 btw.
амеба каже, що повернеться до Моніки

2
Простий приклад того, як MANOVA може бути корисним на відміну від ANOVA: stats.stackexchange.com/questions/129123 . Протилежна ситуація, коли MANOVA все ще вигідна, але з іншої причини: stats.stackexchange.com/questions/61921 . Таким чином, MANOVA може: (i) дати більше енергії, (ii) контролювати загальний показник помилок.
амеба каже, що повернеться до Моніки

Відповіді:


22

Чи прочитали ви повний приклад на веб-сайті UCLA, який ви пов’язали?

Щодо 1:
Використання багатоваріантної моделі допомагає (формально, інфекційно) порівнювати коефіцієнти за результатами.
У цьому зв’язаному прикладі вони використовують багатоваріантну модель, щоб перевірити, чи є writeкоефіцієнт значно різним для locus_of_controlрезультату проти self_conceptрезультату. Я не психолог, але, мабуть, цікаво запитати, чи впливає ваша здатність письма / пророкує дві різні змінні психіки однаково. (Або, якщо ми не віримо в нуль, все ж цікаво запитати, чи ви зібрали достатньо даних, щоб переконливо продемонструвати, що ефекти дійсно відрізняються.)
Якщо ви провели окремі одновимірні аналізи, було б важче порівнятиwriteкоефіцієнт для двох моделей. Обидві оцінки надходитимуть із одного набору даних, тому вони будуть співвідноситись. Багатоцільова модель пояснює це співвідношення.

Крім того , в відношенні 4:
Там є деякі дуже часто використовуються багатофакторні моделі, такі як повторні вимірювання ANOVA . Скориставшись відповідним дизайном дослідження, уявіть, що ви даєте кожному з декількох препаратів кожному пацієнту та вимірюєте стан здоров'я кожного пацієнта після кожного препарату. Або уявіть, що ви вимірюєте той же результат у часі, як і з поздовжніми даними, скажімо, висоти дітей з часом. Тоді у вас є кілька результатів для кожної одиниці (навіть коли вони просто повторюють "той самий" тип вимірювання). Ймовірно, ви хочете виконати хоча б кілька простих контрастів: порівняння ефектів від препарату А проти препарату В або середніх ефектів від препаратів А та В проти плацебо. Для цього, повторні заходи ANOVA - це відповідна багатоваріантна статистична модель / аналіз.


1
Ви дали чудову відповідь. Я точно знав, що існує світ інших прикладів і аргументів, які можна зробити. Мені подобається, що ти взяв інформацію за посиланням UCLA, щоб показати ОП. Відверто кажучи, мене спочатку образило запитання, але я вирішив надати відповідь, коли зрозумів, що ОП щиро хотів отримати тут гарні аргументи і не підштовхує ідею ігнорувати багатоваріантні методи. Мій вибір полягав у тому, щоб показати приклади, коли ігнорування кореляції мало реальні руйнівні та фатальні результати.
Майкл Р. Черник

1
Я вітаю вашу відповідь і, сподіваюся, більш продумані відповіді, які зроблять це цінною темою.
Майкл Р. Черник

Дякую за чудову відповідь, @civilstat. У пункті 1, якщо ми запускаємо дві незалежні одновимірні моделі, ви згадали, що коефіцієнт змінної вхідного сигналу (наприклад, для writeкоефіцієнта) буде співвіднесений, а багатоваріантна модель - однаковою. Ось де я хотів би отримати більше розуміння. locus_of_control і self_concept можуть бути об'єднані в єдиний захід за допомогою факторного аналізу або інших методів, і отриманий захід може бути змодельований, якщо є відповідна мотивація. Якщо обидва вимірюють двох різних псих. явища, що ми отримуємо, моделюючи їх одночасно?
KarthikS

2
@ManuelFazio Дивіться наступне речення на сайті UCLA: "Тож навіщо проводити багатоваріантну регресію? Як ми вже згадували раніше, однією з переваг використання mvreg є те, що ви можете проводити тести коефіцієнтів у різних змінних результатів". Якби ви мали окремі регресії, ви отримали однаковий коефіцієнт і SE для кожного результату , але ви не отримали б оцінку співвідношення коефіцієнтів між результатами . Вам знадобиться це співвідношення, якщо, наприклад, ви хотіли отримати CI для різниці коефіцієнтів зчитування для результату мотивації та результату self_concept.
цивільний стан

1
@civilstat Ага, мені соромно, припущення про незалежність було настільки вкорінене в моїй свідомості, що воно не натиснуло навіть після того, як я прочитав це речення. Дякуємо за розширене пояснення!
zipzapboing

11

Подумайте про всі помилкові та часом небезпечні висновки, які випливають із простого примноження ймовірностей, події мислення незалежні. Через всі вбудовані надмірні гарантії, ми вкладаємо наших експертів з атомних електростанцій, використовуючи припущення про незалежність, сказавши нам, що шанс на велику ядерну аварію був нескінченним. Але, як ми бачили на острові Три милі, люди роблять корельовані помилки, особливо коли вони перебувають у паніці через одну початкову помилку, яка швидко може скластися. Побудувати реалістичну багатоваріантну модель, яка характеризує поведінку людини, може бути важко, але зрозуміло, що ефект жахливої ​​моделі (незалежних помилок) зрозумілий.

Можливо багато інших прикладів. Я візьму катастрофу «Шаттлер Челленджер» як інший можливий приклад. Питання полягало в тому, запускати чи ні в умовах низьких температур. Існували деякі дані, які дозволяють припустити, що кільця можуть вийти з ладу при низьких температурах. Але даних про минулі місії було не так багато, щоб зрозуміти, наскільки високий ризик. NASA завжди піклувалася про безпеку космонавтів, і для скорочення місій було розроблено багато надмірних резервів для космічних кораблів та ракет-носіїв.

Однак до 1986 року були деякі збої в системі та близькі відмовки, ймовірно, через невстановлення всіх можливих режимів відмов (складна задача). Моделювання надійності - справа непроста. Але це вже інша історія. У випадку з човником виробник кілець (Morton Thiokol) провів кілька випробувань ущільнювачів, які вказували на можливість виходу з ладу при низькій температурі.

Але дані про обмежену кількість місій показали певний взаємозв'язок між температурою і збоєм, але оскільки надмірність змусила деяких адміністраторів думати, що багато пошкоджень кільця не відбудеться, вони чинять тиск на NASA, щоб запустити.

Звичайно, було багато інших факторів, які призвели до прийняття рішення. Згадайте, як президент Рейган настільки прагнув помістити вчителя в космос , щоб продемонструвати, що тепер це досить безпечно, що звичайні люди, які не були космонавтами, могли спокійно їздити на човниках. Тож політичний тиск був ще одним важливим фактором, що впливав на рішення. У цьому випадку, маючи достатньо даних та багатоваріантну модель, ризик міг би бути краще продемонстрований. NASA використовують, щоб спробувати помилитися з боку обережності. У цьому випадку відкладення запуску на кілька днів, поки погода у Флориді не прогріється, було б розумним.

Комісії після ліквідації наслідків стихійних лих, інженери, вчені та статистики зробили багато аналізів та публікації публікацій. Їхні погляди можуть відрізнятися від моїх. Едвард Туфте показав в одній із своїх книг про графіку, що хороша графіка могла бути переконливішою. Зрештою, хоча ці аналізи мають усі заслуги, я думаю, що політика все-таки виграла б.

Мораль цих історій полягає не в тому, що ці катастрофи мотивували використання багатоваріантних методів, а в тому, що поганий аналіз, який ігнорував залежність, іноді призводить до великої заниження ризику. Це може призвести до переконання, яке може бути небезпечним. Як зазначав jwimberley в першому коментарі до цієї теми, "Окремі універсальні моделі ігнорують кореляції".


Дякуємо за ваш чудовий приклад, @MichaelChernick. Прийняття незалежності викликає занепокоєння, я розумію. Я більш допитливий щодо взаємозв'язку між результатами та необхідності одночасно моделювати їх.
KarthikS

Візьмемо сам приклад катастрофи човника Challenger. Тут універсальний результат є двійковим - безпечним чи ні запускати космічний човник. Розглянемо модель, яка намагається зробити багато речей, наприклад передбачити безпеку, виміряти відхилення траєкторії та передбачити тиск на човник у приміщенні. Одним із підходів може бути побудова окремих моделей для кожної з них, а другий може враховувати модель "для всіх", яка не тільки намагається зафіксувати ефекти входів (температура, вологість тощо), але і перевіряє одночасність вплив на результати.
KarthikS

1
Дякую @MichaelChernick. Я не впевнений, чи я повністю розумію ваші аргументи. Я розумію, що багато хто з нас використовують одноваріантну та багатоваріантну регресію для простої лінійної регресії з одним входом і більш ніж однією вхідною змінною (де в одному випадку вивчаються одночасні ефекти більш ніж одного входу). Але я поставив це питання для моделей з одним результатом (одноваріантним) або більш ніж одним результатом (багатоваріантним). Якщо випадок "Челленджер" не натякає на багатовимірний випадок використання результатів, чи можете ви надати на увазі дійсний. Дякую за продовження дискусії.
KarthikS

Я здивований, що ви поставили нагороду з цього питання. Баунті частіше роблять, коли на них не було зауважень, і якщо вони містять відповіді, вони не охоплюють важливого аспекту питань. У цій темі було три хороших відповіді та безліч коментарів (дуже хороших теж, як і перший від jwimberley.
Michael R. Chernick

Я не впевнений, що ще хочеш. Питання дуже широке і, здається, більше дискусійне, ніж технічне. Мені це здається майже таким, як ти намагаєшся змусити когось сказати однозначний аналіз, що це нормально у складних ситуаціях. Я не збираюся пробувати на винагороду, і буде цікаво побачити, що протягом наступних семи днів хтось спробує це, і якщо вони дійдуть, ви приймете це. Катастрофа "Челленджера" може розглядатися як однозначний результат, але я не думаю, що за будь-якої ділянки уяви можна було б грунтовно відповісти лише універсальними методами.
Майкл Р. Черник

7

Розглянемо цю цитату з с. 36 книги Дарсі Олсена «Право на спробу» [1]:

Але приблизно через шістнадцять тижнів після початку вливання [eteplirsen] Дженна почала помічати зміни у [її сина] Макса. "Малюк перестав хотіти користуватися своїм інвалідним візком", - каже вона. Через кілька тижнів його просили пограти на вулиці - чогось він не робив за роки. Тоді Макс почав відвоювати свою дрібну моторику. Він знову зміг відкрити контейнери - майстерність, яку він втратив у процесі розвитку [м'язової дистрофії Дюшенна].

Мама Макс Дженн будує цілісну картину його вдосконалення, збираючи докази з безлічі результатів, які окремо можуть бути відхилені як «шум», але які разом є досить переконливими. (Цей принцип синтезу доказів є частиною того, що педіатри, як правило, ніколи не відкидають інстинктивні умовиводи батьків, що "з моєю дитиною щось не так". Батьки мають доступ до "багатовимірного поздовжнього аналізу" своїх дітей, набагато багатшого, ніж "оліговаріат" аналіз поперечного перерізу, доступний клініцисту під час однієї, короткої клінічної зустрічі.)

p>0,05

Досягнення такого синтезу доказів є основним обґрунтуванням багатофакторного аналізу результатів у клінічних випробуваннях. Статистичні методи в медичних дослідженнях мали особливий випуск кілька років тому [2], присвячений «спільному моделюванню» багатоваріантних результатів.

  1. Олсен, Дарсі. Право на спробу: як федеральний уряд заважає американцям отримувати необхідні для життя порятунки. Перше видання. Нью-Йорк, Нью-Йорк: Харпер, відбиток HarperCollins Publishers, 2015.
  2. Різопулос, Дімітріс та Еммануель Лесаффре. «Вступ до спеціального питання щодо методів спільного моделювання». Статистичні методи в медичних дослідженнях 23, вип. 1 (1 лютого 2014 р.): 3–10. doi: 10.1177 / 0962280212445800.

6

Давайте зробимо просту аналогію, оскільки це все, що я можу спробувати зробити свій внесок. Замість одноваріантної та багатоваріантної регресії розглянемо одновимірний (граничний) проти багатоваріантний (спільний) розподіл. Скажімо, у мене є такі дані, і я хочу знайти "людей, що вижили". В якості першого підходу я можу використати два граничні ("уніваріантні") розподіли та намалювати лінії на нижньому 2,5% та верхньому 2,5% кожного незалежно. Окуляри, що виходять за межі отриманих ліній, вважаються пережилими.

Але дві речі: 1) що ми думаємо про точки, які знаходяться поза лініями для однієї осі, але всередині ліній для іншої осі? Вони "часткові пережиті люди" чи щось таке? І 2) отримане поле не виглядає так, що воно справді робить те, що ми хочемо. Причина, звичайно, дві змінні співвідносні, і що ми інтуїтивно хочемо, - це знайти незвичні, що враховують комбіновані змінні.

У цьому випадку ми дивимось на спільний розподіл, і я кольорово позначив точки, залежно від того, чи відстань їх махаланобіса від центру знаходиться в межах верхнього 5% чи ні. Чорні точки виглядають набагато більше, ніж люди, що випадають, навіть якщо деякі люди, що перебувають у відставці, лежать у межах обох наборів зелених ліній, а деякі, які не мають статусу (червоні), лежать поза обома наборами зелених ліній.

В обох випадках ми обмежуємо 95% проти 5%, але друга методика пояснює спільний розподіл. Я вважаю, що багатоваріантна регресія є такою, де ви замінюєте "регресію" на "розподіл". Я абсолютно не розумію цього і не мав потреби (що я розумію) робити багатоваріантну регресію самостійно, але саме так я думаю про це.

[В аналогії є проблеми: відстань махаланобіса зводить дві змінні до єдиного числа - щось на кшталт того, як універсальна регресія приймає набір незалежних змінних і може за допомогою правильних методик враховувати коваріації серед незалежних змінних та результати в одній залежній змінній - тоді як багатоваріантна регресія призводить до декількох залежних змінних. Отже, це щось на зразок назад, але, сподіваємось, вперед - достатньо, щоб дати трохи інтуїції.]

введіть тут опис зображення


1
Мені подобається це. Я б застосував зовнішні еліпси для визначення вищого рівня. Як я бачу вашу ілюстрацію, точка може бути далеко від середнього в напрямку x або y, але все ж знаходиться в межах еліпса, який знаходиться недалеко від лінії регресії.
Майкл Р. Черник

3

1) Природа не завжди проста. Насправді, більшість явищ (результатів), які ми вивчаємо, залежать від декількох змінних, і це складно. Інфекційна модель, заснована на одній змінній за один раз, швидше за все, матиме велику зміщення.

2) Уніваріантні моделі - це найпростіша модель, яку ви можете побудувати, за визначенням. Це добре, якщо ви досліджуєте проблему вперше і хочете зрозуміти її єдину, найнеобхіднішу особливість. Але якщо ви хочете більш глибокого розуміння цього, розуміння, яке ви насправді можете використовувати, оскільки ви довіряєте тому, що ви робите, ви б використовували багатофакторний аналіз. І серед багатоваріантних слід віддати перевагу тим, хто розуміє закономірності кореляції, якщо ви дбаєте про точність моделі.

3) Вибачте, що немає часу прочитати цей.

4) Документи, що використовують багатовимірну техніку, дуже поширені в наші дні - навіть надзвичайно поширені в деяких сферах. У експериментах CERN з використанням даних великого адронного колайдера (для прикладу з фізики частинок) більше половини сотень статей, що публікуються щороку, використовують багатовимірні методи так чи інакше.

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0


Я думаю, ви хочете сказати, універсарна модель - це одна лише вхід, а багатоваріантна - модель з декількома входами. Моє запитання стосувалось одночасного аналізу декількох результатів у моделі.
KarthikS

1
Ви змішали багатоваріантну / одноваріантну регресію з множинною / одиночною регресією.
Firebug

1

Моя відповідь залежить від того, що ви хочете зробити з регресією. Якщо ви намагаєтеся порівняти дію різних коефіцієнтів, то регресія може бути не правильним інструментом для вас. Якщо ви намагаєтесь робити прогнози, використовуючи різні коефіцієнти, які ви довели, незалежні, то, можливо, вам слід скористатися множинною регресією.

Чи співвідносяться фактори? Якщо так, то багатоваріантна регресія може дати вам погану модель, і вам слід скористатися таким методом, як VIFs або регресія хребта, щоб обрізати перехресні кореляції. Не слід порівнювати коефіцієнти, поки не будуть усунені перехресні кореляційні фактори. Це призведе до катастрофи. Якщо вони не є взаємопов’язаними, то мультиваріантні коефіцієнти повинні бути настільки ж порівнянні, як одновимірні коефіцієнти, і це не повинно дивно.

Результат також може залежати від програмного пакету, який ви використовуєте. Я не жартую. Різні програмні пакети мають різні методи обчислення багатоваріантної регресії. (Не вірите мені? Перевірте, як стандартний R регресійний пакет обчислює R 2 за допомогою та без примусового походження як перехоплення. Ваша щелепа повинна вдарити підлогу.) Вам потрібно зрозуміти, як програмний пакет виконує регресію. Як це компенсує перехресні кореляції? Це виконує послідовне чи матричне рішення? У мене в минулому були розчарування. Я пропоную виконати свою багаторазову регресію на різних програмних пакетах і подивитися, що ви отримаєте.

Ще один хороший приклад тут:

Зауважимо, що в цьому рівнянні коефіцієнти регресії (або коефіцієнти В) представляють незалежний внесок кожної незалежної змінної у прогнозування залежної змінної. Інший спосіб виразити цей факт - сказати, що, наприклад, змінна X1 корелює з змінною Y після контролю за всіма іншими незалежними змінними. Цей тип кореляції також називають частковою кореляцією (цей термін вперше використав Yule, 1907). Можливо, наступний приклад прояснить це питання. Ви, мабуть, знайдете значну негативну кореляцію між довжиною волосся та зростом у популяції (тобто у коротких людей довше волосся). Спочатку це може здатися дивним; однак, якби ми додали змінну Стать у рівняння множинної регресії, ця кореляція, ймовірно, зникне. Це тому, що в середньому жінки мають довше волосся, ніж чоловіки; вони також в середньому коротші, ніж чоловіки. Таким чином, після того, як ми усунемо цю різницю статі, ввівши Статтю в рівняння, зв’язок між довжиною волосся та висотою зникає, оскільки довжина волосся не робить жодного унікального внеску в прогнозування росту, що виходить за межі того, що воно ділиться в прогнозуванні зі змінною статі . По-іншому, після контролю за змінною Стать, часткова кореляція між довжиною волосся та висотою дорівнює нулю. взаємозв'язок між довжиною та висотою волосся зникає, оскільки довжина волосся не робить жодного унікального внеску в прогнозування росту, що виходить за межі того, що воно поділяє в передбаченні зі змінною статі. По-іншому, після контролю за змінною Стать, часткова кореляція між довжиною волосся та висотою дорівнює нулю. взаємозв'язок між довжиною та висотою волосся зникає, оскільки довжина волосся не робить жодного унікального внеску в прогнозування росту, що виходить за межі того, що воно поділяє в передбаченні зі змінною статі. По-іншому, після контролю за змінною Стать, часткова кореляція між довжиною волосся та висотою дорівнює нулю. http://www.statsoft.com/Textbook/Multiple-Regression

Є так багато підводних каменів, що використовують багаторазову регресію, що я намагаюся уникати її використання. Якщо ви мали б це використовувати, будьте дуже обережні з результатами та перевірте їх. Ви завжди повинні побудувати дані візуально для перевірки кореляції. (Тільки тому, що у вашій програмі сказано, що кореляції немає, це не означає, що її немає. Цікаві кореляції ) Завжди перевіряйте результати на користь здорового глузду. Якщо один фактор демонструє сильну кореляцію в одноманітній регресії, а в багатоваріантній - жодної, вам слід зрозуміти, чому до обміну результатами (ґендерний фактор, наведений вище - хороший приклад).


" Перевірте, як стандартний R регресійний пакет обчислює R2 за допомогою та без примушування джерела як перехоплення ". Хоча це потенційно бентежить тих, хто цього не очікує, R, що робить у цій ситуації, - це стандартний підхід, який реалізується буквально у кожному програмному забезпеченні статистики пакет, де я це перевірив.
Джейк Вестфалл

Цікаво. Я бачив опубліковані документи від аналітиків, які не розуміли цієї різниці. Ви бачили хорошу дискусію в мережі в темі? Чи слід подати нове запитання до резюме щодо нього?
Maddenker

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.