Чи більш імовірно, що зазвичай розподілені X і Y призводять до нормально розподілених залишків?


12

Тут обговорюється неправильне трактування припущення про нормальність в лінійній регресії (що "нормальність" позначає X та / або Y, а не залишки), і плакат запитує, чи можливо не нормально розподілені X і Y і все ще мають нормально розподілені залишки.

Моє запитання: як правило, розподілені X і Y мають більше шансів отримати нормально розподілені залишки? Було багато пов’язаних публікацій, але я не вірю нікому, як конкретно задали це питання.

Я усвідомлюю, що це, мабуть, тривіальний момент, якщо потрібно зробити лише один регрес, але менше, якщо є кілька тестів. Так що скажіть, у мене є 100 змінних X, які мають однакові перекоси, і я хочу перевірити їх усі. Якби я перетворив їх усіх на нормальний розподіл, чи буде ймовірно, що у мене буде менше X змінних, які потребують повторного дослідження (з різною / без перетворення) через не нормально розподілених залишків, чи перетворення до регресії було б абсолютно довільним?


1
Щоб відповісти "більш вірогідно", ми, мабуть, повинні були б поставити щось про спільний розподіл, а не лише надбавки.
Glen_b -Встановіть Моніку

Відповіді:


15

Ні . Залишки є значення умовної на (мінус передбачене середнє в кожній точці ). Ви можете змінити будь-яким способом ( , , ), а значення які відповідають значенням у заданій точці , не зміниться. Таким чином, умовний розподіл (тобто ) буде однаковим. Тобто це буде нормально чи ні, як і раніше. (Щоб зрозуміти цю тему більш повно, можливо, вам допоможе прочитати мою відповідь тут:X Y X X X + 10 X - +1 / 5 X / π Y X X Y Y | ХYXYXXX+10X1/5X/πYXXYY|XЩо робити, якщо залишки зазвичай розподіляються, але Y - ні? )

Що змінюється може зробити ( в залежності від характеру перетворення даних ви використовуєте) є зміна функціональної залежності між і . При нелінійній зміні (наприклад, для видалення перекосу) модель, яка була правильно вказана раніше, стане неправильною. Нелінійні перетворення часто використовуються для лінеаризації відносин між і , щоб зробити співвідношення більш інтерпретаційним або вирішити інше теоретичне питання. X Y X X X YXXYXXXY

Докладніше про те, як нелінійні перетворення можуть змінити модель та питання, на які відповідає модель (з акцентом на перетворення журналу), може допомогти вам прочитати ці чудові теми CV:

Лінійні перетворення можуть змінювати значення ваших параметрів, але не впливати на функціональні відносини. Наприклад, якщо ви і і перед запуском регресії, перехоплення стане . Так само, якщо розділити на постійну (скажімо, змінити сантиметр на метри), нахил буде помножено на цю константу (наприклад, , тобто зросте в 100 разів більше, ніж на 1 метр, ніж на 1 см). У р 0 0 Х β 1 ( м ) = 100 × β 1 ( з м ) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y


З іншого боку, нелінійні перетворення буде впливати на розподіл залишків. Насправді перетворення - це звичайна пропозиція щодо нормалізації залишків. Чи буде таке перетворення зробити їх більш-менш нормальними, залежить від початкового розподілу залишків (а не початкового розподілу ) та використовуваного перетворення. Загальна стратегія полягає в оптимізації над параметром сімейства розподілів Box-Cox. Слово застереження тут доречно: нелінійні перетворення можуть зробити вашу модель невірно специфікована як нелінійні перетворення може. Y Y λ Y XY YYλYX


А що робити, якщо і і є нормальними? Насправді це навіть не гарантує того, що спільний розподіл буде нормально нормальним (див. Чудову відповідь @ кардинала тут: чи можливо мати пару гауссових випадкових величин, для яких спільний розподіл не є гауссовим ). YXY

Звичайно, це здається досить дивними можливостями, тож що, якщо граничні розподіли здаються нормальними, а спільний розподіл також виглядає біваріантним нормальним, чи потрібно це, щоб і залишки були нормально розподілені? Як я намагався показати в моїй обороні я пов'язаний вище, якщо залишки нормально розподілені, нормальність залежить від розподілу . Однак це неправда, що нормальність залишків визначається нормальністю маргіналів. Розглянемо цей простий приклад (закодований ): XYXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

введіть тут опис зображення

На графіках ми бачимо, що обидва маргінали виглядають досить нормально, а спільний розподіл виглядає досить біваріантно нормальним. Тим не менш, однаковість залишків виявляється у їхній qq-графіці; обидва хвости випадають занадто швидко відносно нормального розподілу (як це справді має бути).


0

Коротка відповідь міститься в класичній теорії простої регресії, X є фіксованою та вважається відомою (див., Наприклад, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), навіть без будь-якої помилки вимірювання, ваша бета-версія з найменшими квадратами може бути упередженою та навіть непослідовною (див. https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Щодо того, щоб зробити X змінною, Вікіпедія в теоремі Гаусса-Маркова дуже коротко зазначає:

"У більшості методів лікування OLS дані X вважаються фіксованими. Це припущення вважається недоцільним для переважно неекспериментальної науки, як економетрика. [2] Натомість припущення теореми Гаусса-Маркова констатуються як умовні для X "

яку я читав як головне невтішне перетворення від науки до мистецтва чи мистецтва / науки.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.