Чому в регресійному аналізі ми називаємо незалежні змінні "незалежними"?


30

Я маю на увазі, що деякі з цих змінних сильно співвідносяться між собою. Як / чому / в якому контексті ми визначаємо їх як незалежні змінні?


1
Це історично і походить від французьких наукових праць. Я намагаюся знайти посилання.
Алекос Пападопулос

1
Я б назвав набір змінних "потенційно співзалежними", щоб уникнути причинності.
qed

1
Гарне запитання!
Рафаель Маразуела

Відповіді:


29

Якщо ми відступимо від сьогоднішнього акценту на машинному навчанні та згадаємо, наскільки статистичний аналіз був розроблений для контрольованих експериментальних досліджень, то фраза "незалежні змінні" має багато сенсу.

У контрольованих експериментальних дослідженнях вибір лікарського засобу та його концентрації, або вибір добрива та його кількість на акр, дослідник робить самостійно . Цікаво, що залежність змінної реакції (наприклад, артеріального тиску, врожаю) залежить від цих експериментальних маніпуляцій. В ідеалі характеристики незалежних змінних чітко визначені, фактично не мають помилок у пізнанні їх значень. Тоді стандартна лінійна регресія, наприклад, моделює різниці між значеннями залежних змінних з точки зору значень незалежних змінних плюс залишкових помилок.

Той самий математичний формалізм, який застосовується для регресії в контексті контрольованих експериментальних досліджень, також може бути застосований до аналізу спостережуваних наборів даних з малоекспериментальним маніпулюванням, тому, мабуть, не дивно, що фраза "незалежні змінні" перейшла до таких типів дослідження. Але, як зазначають інші на цій сторінці, це, мабуть, невдалий вибір, з "прогнозовами" або "можливостями", більш підходящими в таких контекстах.


2
Але вибір рівнів наркотику залежить від того, що робить слідчий, тому я ніколи не можу згадати, що таке.
mdewey

У машинному навчанні "функції" часто є прихованими, непоміченими змінними. "Спостережувані особливості" є більш поширеними.
Ніл Г

18

YXY


Отже, все, що ви говорите, називати вхідні змінні "незалежними" - це неправильна практика? @Frank
Amarpreet Singh

11
Вони, безумовно, не вважаються незалежними від будь-якого, тому це неправильна практика, яка використовується лише через звичку.
Френк Харрелл

1
E(Y|X)

11

Я погоджуюся з іншими відповідями тут, що "незалежний" та "залежний" - це погана термінологія. Як пояснює ЕдМ , ця термінологія виникла в контексті контрольованих експериментів, коли дослідник міг встановлювати регресори незалежно один від одного. Є багато кращих термінів, які не мають цієї завантаженої причинної конотації, і на мій досвід, статистики, як правило, віддають перевагу більш нейтральним термінам. Тут вживається багато інших термінів , включаючи такі:

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

Особисто я використовую терміни пояснювальні змінні та змінну відповідей, оскільки ці терміни не мають конотації статистичної незалежності чи контролю тощо. (Можна стверджувати, що "відповідь" має причинну конотацію, але це досить слабка конотація, тому я не вважають це проблематичним.)


1
(+1) Я припускаю, що регресор / регресіяі є найбільш нейтральними термінами, але я також вважаю за краще пояснювати, використовуючи пояснювальні / відповіді.
Франс Роденбург

2
Я погоджуюся з тенденцією віддавати перевагу нейтральним термінам, але "пояснювальний" звучить для мене досить причинно, як у: "Змінні X пояснюють, чому змінна Y діє так, як це робиться".
timwiz

1
Я вважаю, що це пояснює в імовірнісному сенсі, тобто пояснює зміни в розподілі змінної відповіді. Ви можете мати рацію, але у всіх цих випадках конотація до будь-якої причинності є слабкою.
Відновіть Моніку

2
Пояснення означає, що причинно-наслідкова ситуація є недоцільною.
Френк Харрелл

1
@Frank: Я не обов'язково згоден з цим поглядом. Пояснення походить від слова "пояснити", тому я маю на увазі лише те, що змінні якимось чином пояснюють змінну відповіді. Це пояснення може бути причинним, а може бути просто статистичним, і я вважаю, що це останнє. Тим не менш, здається, що люди трактують конотації цих слів по-різному, тому я визнаю, що деякі читатимуть це як причинно-наслідкові конотації.
Відновіть Моніку

9

Щоб додати відповіді Френка Гаррелла та Пітера Флома:

Я згоден, що називати змінну "незалежною" чи "залежною" часто вводити в оману. Але деякі люди все одно так роблять. Я колись почув відповідь, чому:

YXXYY X

Y


Ви говорите, що Y залежить від X, (так Y називається залежною змінною), і ви маєте на увазі, що X не залежить від Y. Але можуть бути випадки, коли X може залежати від Y або корелювати з Y (так що він може більше не називатимуться "незалежними"). Якісь погляди на це?
Amarpreet Singh

Ні, я не маю на увазі, що X не залежить від Y. Я просто маю на увазі, що основне пояснення того, що робить регресійний аналіз, - це те, що воно описує, як Y залежить від X. Отже, основне ім'я Y буде "залежним" "
Łukasz Deryło

6
Я не намагаюся відповісти на питання "чи слід називати X незалежним?" а радше "чому ми називаємо це незалежним?", як і в назві вашого повідомлення
Łukasz Deryło

5

"Залежний" і "незалежний" можуть бути заплутаними термінами. Одне сенс - псевдокаузальний або навіть причинний, і це той, що мається на увазі під час висловлення "незалежна змінна" та "залежна змінна". Ми маємо на увазі, що DV у певному сенсі залежить від IV. Так, наприклад, моделюючи співвідношення зросту і ваги у дорослих людей, ми говоримо, що вага - це DV, а зріст - IV.

Це дійсно фіксує те, чого не має "провісник", а саме - напрямок відносин. Зріст прогнозує вагу, але вага також передбачає зростання. Тобто, якби вам сказали відгадати зріст людей і їм сказали їх вагу, це було б корисно.

Але ми б не говорили, що висота залежить від ваги.


Ви конкретизуєте модель SEM?
Amarpreet Singh

Ні. Я думав про регресію.
Пітер Флом - Відновити Моніку

Гаразд, так це лише питання назви. Я заплутався, що називати вхідні змінні "незалежними" щось означає.
Amarpreet Singh

12
DV та IV є загальними абревіатурами (що особисто мені не подобається), але слідкуйте за багатьма економістами та деякими іншими соціологами, для яких IV може означати лише інструментальну змінну. Рідше зустрічаються з людьми, для яких DV може означати лише Deo volente (Бог бажає).
Нік Кокс

0

Виходячи з вищенаведених відповідей, так, я згоден, що ця залежна і незалежна змінна є слабкою термінологією. Але я можу пояснити той контекст, в якому він використовується багатьма з нас. Ви говорите, що для загальної проблеми регресії у нас є змінна вихідна величина, скажімо Y, значення якої залежить від інших вхідних змінних, скажімо, x1, x2, x3. Ось чому його називають "залежною змінною". І точно так само в залежності від цього контексту тільки , і просто диференціюються між виходом і входом змінної, x1, x2, x3, називаються незалежної змінної. Тому що на відміну від Y це не залежить від будь-якої іншої змінної (Але так, ми тут не говоримо про залежність від себе.)


Ви відповіли подібним чином, як у @Ramya R.
Amarpreet Singh

-2

Незалежні змінні називаються незалежними, оскільки вони не залежать від інших змінних. Наприклад, розглянемо проблему прогнозування цін на будинки. Припустимо, у нас є дані про house_size, розташування та house_price. Тут house_price визначається залежно від розміру і розміру будинку, але розмір і розмір будинку можуть змінюватись для різних будинків.


4
Іноді так звані "незалежні" змінні в регресії співвідносяться. Тому вони не обов'язково статистично незалежні. Краще було б назвати їх змінними провісника.
Майкл Р. Черник

Мікель, Дякую, що вказав на це. У мене є наступне питання. У тих випадках, коли у нас є дві перемінницькі показники, які є колінеарними, чи не відкидаємо одну з них, щоб усунути проблему мультиколінеарності, щоб наші змінні прогнози не залежали одна від одної?
Рам’я Р

1
Не обов'язково. Це залежить від того, впливає він чи ні на стабільність оцінок і наскільки сильніше прогнозування, коли включені обидві змінні. Якщо дві змінні мають кореляцію 0,1, вони не є незалежними, але зв'язок між ними слабкий.
Майкл Р. Черник
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.