Чому припущення нормальності в лінійній регресії

15

Моє запитання дуже просте: чому ми обираємо нормальне як розподіл, за яким слід термін помилки, припускаючи лінійну регресію? Чому ми не обираємо інших, таких як уніформа, т чи інше?

— Майстер Ши
джерело

5

Ми не обираємо нормальне припущення. Так буває, що коли помилка є нормальною, модельні коефіцієнти точно відповідають нормальному розподілу, і точний F-тест може бути використаний для перевірки гіпотез про них.

— АдамО

10

Тому що математика працює досить легко, щоб люди могли використовувати її перед сучасними комп’ютерами.

— Nat

1

@AdamO я не розумію; Ви просто окреслили причини, чому ми обираємо це.

— JiK

2

@JiK Якби я міг вибрати дистрибуції, статистики взагалі не було б. Весь світ був би ймовірним.

— АдамО

1

@AdamO Ви можете вибирати припущення для своєї моделі, коли робите статистичні умовиводи, тому я не думаю, що це означає, що статистики немає.

— JiK

29

Ми обираємо інші розподіли помилок. У багатьох випадках це можна зробити досить легко; якщо ви використовуєте максимальну оцінку ймовірності, це змінить функцію втрат. Це, безумовно, робиться на практиці.

Лаплас (подвійні експоненціальні помилки) відповідають найменш абсолютним відхиленням регресії / $L_1$ регресії (про які обговорюють численні публікації на сайті). Регресії з t-помилками використовуються періодично (в деяких випадках тому, що вони більш стійкі до грубих помилок), хоча вони можуть мати і недолік - ймовірність (а отже, і негативний збиток) може мати кілька режимів.

Уніфіковані помилки відповідати $L_\infty$ втрат (мінімізувати максимальне відхилення); таку регресію іноді називають наближенням Чебишева (правда, будьте обережні, оскільки є ще одна річ з по суті такою ж назвою). Знову ж таки, це робиться іноді (насправді для простої регресії та невеликих наборів даних із обмеженими помилками з постійним поширенням пристосування часто досить легко знайти вручну, прямо на графіку, хоча на практиці можна використовувати лінійні методи програмування або інші алгоритми дійсно, проблеми регресії $L_\infty$ та $L_1$ є дуалами один одного, що може призвести до деколи зручних ярликів деяких проблем).

Насправді ось приклад моделі "рівномірної помилки", встановленої до даних вручну:

Легко визначити (просунувши випрямлений напрямок у бік даних), що чотири позначені точки є єдиними кандидатами для участі в активному наборі; три з них фактично формуватимуть активний набір (і трохи перевіривши, незабаром визначається, які три ведуть до вузької смуги, яка охоплює всі дані). Лінія в центрі цієї смуги (позначена червоним кольором) є максимальною оцінкою ймовірності лінії.

Можливо багато інших варіантів вибору моделі, і досить багато їх застосовується на практиці.

Зауважте, що якщо у вас є адитивні, незалежні помилки з постійним поширенням з щільністю форми $k\,\exp(-c.g(\varepsilon))$ , максимізація ймовірності буде відповідати мінімуму $\sum_i g(e_i)$ , де $e_i$ представляю собою $i$ - го залишку.

Однак є цілий ряд причин того, що найменші квадрати - це популярний вибір, багато з яких не потребують припущення про нормальність.

— Glen_b -Встановити Моніку
джерело

2

Чудова відповідь. Не хотіли б ви додати кілька посилань, які дають більше деталей щодо того, як ці варіанти використовуються на практиці?

— rgk

(+1) Відмінна відповідь. Ви б не хотіли поділитися R-кодом, який використовується для встановлення лінії

-Regression?

L_{\infty}

$L_{\infty}$

— COOLSerdash

1

Як я пояснював у тексті, я підходив до нього вручну, дуже схожим на описаний нами підхід. Хоча це можна зробити досить легко за допомогою коду, я буквально відкрив сюжет в MS Paint і визначив три точки в активному наборі (з'єднання двох з яких дало схил) - і потім перемістив лінію на півдорозі до третьої точки (вдвічі зменшивши вертикальну відстань у пікселях і перемістивши лінію вгору на стільки пікселів) - справа в тому, щоб продемонструвати, наскільки це може бути просто. Дитину можна було б навчити робити це.

— Glen_b -Встановити Моніку

@Glen_b Дійсно, я був підлітком, коли мене вчили робити саме це в лабораторії фізики першокурсника.

— Петро Леопольд

9

Нормальне / гауссова припущення часто використовується, оскільки це найбільш зручний для обчислень вибір. Обчислення максимальної оцінки ймовірності коефіцієнтів регресії є квадратичною проблемою мінімізації, яку можна вирішити за допомогою чистої лінійної алгебри. Інші варіанти розподілу шуму дають складніші проблеми оптимізації, які зазвичай доводиться вирішувати чисельно. Зокрема, проблема може бути невипуклою, створюючи додаткові ускладнення.

Нормальність не обов'язково є загальним припущенням загалом. Нормальний розподіл має дуже легкі хвости, і це робить оцінку регресії досить чутливою до людей, що вижили. Такі альтернативи, як розподіл Лапласа або Стьюдента, часто є вищими, якщо дані вимірювань містять інше.

Додаткову інформацію див. У настійній книзі Пітера Хубера.

— Мартін Л
джерело

2

Працюючи з цими гіпотезами, регресія на основі квадратних помилок та максимальна ймовірність дають вам те саме рішення. Ви також можете отримати прості F-тести на значення коефіцієнта, а також довірчі інтервали для ваших прогнозів.

На закінчення, причиною, чому ми часто обираємо нормальний розподіл, є його властивості, які часто полегшують справи. Це також не дуже обмежувальне припущення, оскільки багато інших типів даних будуть поводитись «як правило»

У будь-якому випадку, як було сказано в попередній відповіді, є можливості визначити регресійні моделі для інших розподілів. Нормальне, як правило, є найбільш рецидивуючим

— Девід
джерело

2

Glen_b славно пояснив , що МНК може бути узагальнено (максимізація ймовірності замість мінімізації суми квадратів) , і ми робимо вибір інших дистрибутивів.

Однак чому нормальний розподіл вибирають так часто ?

Причина в тому, що нормальний розподіл відбувається в багатьох місцях природним шляхом. Це трохи так само, як ми часто бачимо золоте співвідношення або числа Фібоначчі, що виникають "спонтанно" в різних місцях природи.

Нормальний розподіл - це обмежуючий розподіл для суми змінних з кінцевою дисперсією (або можливі також менш жорсткі обмеження). І, не приймаючи обмеження, це також є гарним наближенням до суми кінцевої кількості змінних. Отже, оскільки багато спостережуваних помилок трапляються як сума безлічі невеликих непомічених помилок, нормальний розподіл є хорошим наближенням.

Дивіться також тут Важливість нормального розподілу

де бобові машини Галтона інтуїтивно показують цей принцип

— Секст Емпірік
джерело

-1

Чому ми не обираємо інші дистрибуції?

$y_i \in \mathbb R$ $x_i \in \mathbb R^n$ $x_i$

{\hat{y}}_{i} = w^{⊺} x_{i} .

$\hat y_i = w^\intercal x_i.$

Несподівана втрата, як правило, є найбільш розумною втратою:

L = - \log P (y_{i} ∣ x_{i}) .

$L = -\log P(y_i \mid x_i).$

Ви можете вважати лінійну регресію як використання нормальної щільності з фіксованою дисперсією у наведеному вище рівнянні:

L = - \log P (y_{i} ∣ x_{i}) \propto (y_{i} - {\hat{y}}_{i})^{2} .

$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$

Це призводить до оновлення ваги:

\nabla_{w} L = ({\hat{y}}_{i} - y_{i}) x_{i}

$\nabla_w L = (\hat y_i - y_i)x_i$

Загалом, якщо ви використовуєте інший експоненціальний розподіл сім'ї, цю модель називають узагальненою лінійною моделлю . Різний розподіл відповідає різній щільності, але його можна легше формалізувати, змінивши передбачення, вагу та ціль.

$W \in \mathbb R^{n\times k}$

{\hat{у}}_{i} ≜ \nabla г (W х_{i})

$\hat u_i \triangleq \nabla g(W x_i)$

де $\nabla g: \mathbb R^k \to \mathbb R^k$ називається функцією зв'язку або градієнтним журналом-нормалізатором . І, ціль $y_i$ змінюється на вектор, який називається достатньою статистикою $u_i = T(y_i) \in \mathbb R^k$ .

Кожна функція посилання та достатня статистика відповідає різному припущенню щодо розподілу, про що йдеться у вашому питанні. Щоб зрозуміти, чому, давайте розглянемо функцію щільності сімейства безперервного значення з природними параметрами $\eta$ :

f (z) = h (z) \exp (η^{⊺} T (z) - g (η)) .

$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$

Let the natural parameters $\eta$ be $w^\intercal x_i$ , and evaluate the density at the observed target $z = y_i$ . Then, the loss gradient is

\begin{aligned} \nabla_{W} L & = \nabla_{W} - \log f (x) \\ = (\nabla g (W x_{i})) x_{i}^{⊺} - T (y_{i}) x_{i}^{⊺} \\ = ({\hat{u}}_{i} - u_{i}) x_{i}^{⊺} \end{aligned},

$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$ which has the same nice form as linear regression.

As far as I know, the gradient log-normalizer can be any monotonic, analytic function, and any monotonic, analytic function is the gradient log-normalizer of some exponential family.

— Neil G
джерело

This is very short and too cryptic for our standards, please also explain surprisal.

— kjetil b halvorsen

1

"each link function corresponds to a different distributional assumption" this is very vague. The link function does not have to do with generalizing to different distributional assumptions, but with generalizing the (linear) part that describes the mean of the distribution.

— Sextus Empiricus

1

The linked article contains in section '3.1 Normal distribution' > "More generally, as shown in Nelder (1968), we can consider models in which there is a linearizing transformation $f$ and a normalizing transformation $g$ " I do not know what your gradient log-normalizer refers to, and maybe you are speaking about this normalizing transformation? But, that is not the link function. The link function in GLM relates to the linearizing transformation.

— Sextus Empiricus

1

Typically certain link functions are used with certain distributional assumptions. But this is not a necessity. So my distributional assumptions are normal in that example, and not Poisson (that was intentional). Some better (more practical and well known) examples are binomial/Bernouilli distributed variables where people work with a probit model or a logit model, thus different link functions but the same (conditional) distributional assumption.

— Sextus Empiricus

1

@Neil G: I'm the lazy one? You could easily have included surprisal in the original post, yes? Also, when I am making such comments, is is more for the site than for myself. This site is supposed to be self-contained. I could have/did guess the meaning (even if it is nonstandard terminology in statistics), as you can see from my answer here, entropy

— kjetil b halvorsen