Чому ми кажемо, що змінна результату "регресує" на прогнокторі?


16

Чи є якесь інтуїтивне пояснення цієї термінології? Чому саме так, а не передбачувальник (-ів) регресують щодо результату?

В ідеалі я сподіваюся, що правильне пояснення того, чому існує ця термінологія, допоможе студентам запам’ятати це та заважатиме їм говорити це неправильно.


1
Ми теж? Я не впевнений, що коли-небудь це говорив - і я багато обговорював регресію. Якщо ви знаєте когось, хто це каже, можливо, ви могли б запитати їх. (Я при нагоді казав " регресував ", але на мене
це здасться

Дякую - я мав на увазі "увімкнено", а не "на". Я зараз це виправив.
user1205901

Відповіді:


19

Я не знаю, що таке етимологія "регресує", але ось таке тлумачення, яке я маю на увазі, коли говорю чи чую це вираз. Розглянемо наступний малюнок із Елементів статистичного навчання Хасті та ін .:

регресія - проекція

У своїй основі лінійна регресія становить ортогональну проекцію на (на) X , де y - n -вимірний вектор спостережень залежної змінної, а X - підпростір, що охоплюється векторами прогнозування.yXynX

Це дуже корисна інтерпретація лінійної регресії.

Так як проектується на X , тобто те , що я думаю , коли я чую , що у є «регрес на" X . З цієї точки зору, було б менше сенсу говорити , що X регресує на у або що у регресії «проти» або «з» X .yXyXXyyX

В ідеалі я сподіваюся, що правильне пояснення того, чому існує ця термінологія, допоможе студентам запам’ятати це та заважатиме їм говорити це неправильно.

Як я вже говорив, я сумніваюся, що це пояснення того, чому існує ця термінологія (можливо, лише чому вона зберігається?), Але я впевнений, що це може допомогти студентам запам'ятати її.


2
+1. Залежить від студентів! Це, безумовно, дійсний і плідний спосіб говорити і думати на проміжних або просунутих рівнях. Невже це відповідає за термінологію "на"? Не так давно можна було знайти регресійні тексти майже без діаграм, не кажучи вже про сильно візуальний чи геометричний підхід, хоча це зараз є цілком стандартним, тоді як я думаю, що ця термінологія сягає десятків років.
Нік Кокс

(+1) Єдиний спосіб, коли я отримав концепцію регресії через череп, - це мислення про це як проекцію на простір стовпця C ( A ) матриці моделі, що, на мою думку, це геометрична інтерпретація, яку ви показуєте . yC(A)
Антоні Пареллада

1
Це дуже хороша статистична причина використання термінології. Соціальні чи мовні причини, чому це популярно, можуть бути різними!
Нік Кокс

Просто, щоб було зрозуміло: я повністю згоден з тим, що сказав @NickCox у коментарях тут.
Амеба каже, що повернеться до Моніки

6

Я часто використовував і чув цей спосіб розмови. Я здогадуюсь, що послідовність, що згадує результат або відповідь перед передбачувачами, випливає із умовних угод у письмовій формі, вживання слів або використання позначень або змішування двох, аж до

Y=Xβ

відміняючи не менш цікаве (або нецікаве!) питання про те, що ми називаємо різними видами змінних.

Але здається, що математично та статистично не менш справедливо згадувати про прогнозистів спочатку так само, як багато математиків спочатку пишуть відображення чи функції з аргументами.

Що часто, можливо, керує послідовністю, яку ми використовуємо в статистичних дискусіях, це те, що в науковому або практичному плані ми зазвичай маємо чітке уявлення про те, що ми намагаємось передбачити - це смертність, або дохід, і урожайність пшениці, або голоси на виборах, або будь-що інше - хоча пул потенційних чи фактичних прогнозів може бути не таким чітким. Навіть якщо це зрозуміло, має сенс спочатку згадати важливі речі. Що ти намагаєшся зробити? Прогнозуйте що завгодно . Як ти будеш це робити? Використовуйте деякі або всі ці змінні .

У мене немає історії для "на", а не будь-яке інше слово, яке б підходило. Я не чую "регресую проти" чи "регресую з". Тут може бути ніякої логіки, просто меми передаються в підручниках, викладанні та дискусіях.

yx


+1. Але моє особисте тлумачення поняття "регресує" - це "спроектоване на", дивіться мою відповідь. Цікаво, чи багато людей думають про цей вираз таким чином, чи це лише я.
амеба каже, що повернеться до Моніки

3

1) Термін регресія походить від того, що у звичайній простій лінійній регресійній моделі:

y=α+βx+ϵ

yxy^y¯xx¯

|y^y¯|/sy<|xx¯|/sx

Наприклад, якщо ми використовуємо кадр даних BOD, вбудований у R, то:

fm <- lm(demand ~ Time, BOD)
with(BOD, all( abs(fitted(fm) - mean(demand)) / sd(demand) < abs(scale(Time))))
## [1] TRUE

Для підтвердження дивіться: https://en.wikipedia.org/wiki/Regression_toward_the_mean

2) Термін на виходить з того факту , що вбудовані значення є проекцією змінного результату на підпростір , натягнуте на ПРЕДИКТОРИ ( в тому числі перехоплення) , як додатково пояснено в багатьох джерелах , таких як HTTP: //people.eecs.ku .edu / ~ jhuan / EECS940_S12 / слайди / linearRegression.pdf .

Примітка

Що стосується коментаря нижче, те, що коментує заявник, - це те, що відповідь уже зазначено вище у формі формули, за винятком того, що у відповіді зазначено правильно. Насправді через рівність:

(y^y¯)=β^(xx¯)

|β|<1

beta>1


1
Я впевнений, що термін регресія не походить від цього. Під час раннього вживання терміна зріст сина регресував на зріст батька; через середні результати реверсії показали, що сини високих батьків прагнуть до регресу.
PaulB

Хоча це було вірно для того конкретного набору даних, який взагалі не відповідає дійсності, якщо ви не вимірюєте близькість з точки зору стандартних відхилень, але саме це робить нерівність у відповіді, можливо, ви просто не визнали цього. Насправді сучасне поняття засноване на правильній рецептурі, яку я виклав, а не на неправильній рецептурі, що не передбачає стандартного відхилення. Про це я розповів у примітці, яку я додав до кінця відповіді.
Г. Гротендієк

0

Особисто, якщо мова йде про пояснення термінології, я вважаю, що саме визначення цього терміна завжди допомагає, особливо, коли пояснюється студентам. Актуальним визначенням слова регресу є:

"повернення до колишнього або менш розвиненого стану".

Отож, один із способів пояснити, я думаю, буде наступним:

"Розглядаючи результат як повністю розвинений стан, ми намагаємось пояснити результат за допомогою менш розвинених станів, тобто незалежних змінних. Таким чином, результат регресується на прогнозах".

Сподіваюся, що це допомагає.


1
Існує більше одного "фактичного визначення". Я б припустив, що в статистичній науці технічне визначення регресії як підходящої моделі (за замовчуванням лінійна модель) зараз є первинним, а історичний сенс. вторинний. Мені не здається корисним думати, що загалом прогноктори є "менш розвиненими державами", наприклад, немає сенсу, в якому опадів прогнозиста є менш розвиненим станом вихідного врожаю пшениці. Так чи інакше, я не бачу, як це пояснює вираз.
Нік Кокс

Я бачу ваш погляд повністю. Чи можна пояснити регресію за допомогою визначення, яке я опублікував? Тому що спосіб, який я б міг вважати "менш розвиненим", полягає не в тому, що кількість опадів розвинена менш, ніж урожайність пшениці, а більше, ніж те, що частково може пояснити врожайність пшениці.
EhsanF

1
Якщо "менш розвинений" не означає менш розвинений, я не можу бачити, що формулювання взагалі допомагає.
Нік Кокс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.