Яка інтуїція стоїть за умовними розподілами Гаусса?


46

Нехай XN2(μ,Σ) . Тоді умовний розподіл X1 огляду на те, що X2=x2 є багатоваріантним, нормально розподіленим із середнім:

E[P(X1|X2=x2)]=μ1+σ12σ22(x2μ2)

і дисперсія:

Var[P(X1|X2=x2)]=σ11σ122σ22

Має сенс, що дисперсія зменшиться, оскільки ми маємо більше інформації. Але яка інтуїція за середньою формулою? Як коваріація між коефіцієнтом X1 і X2 перетворюється на умовне значення?


2
Ваше запитання просто "чому не означає середнє умовне розподіл = μ1 "?
gung - Відновити Моніку

@gung: Це вірно, якщо x2=μ2 . Але чому бере участь σ11 та σ22 ?
eroeijr

3
У природних («стандартизованих») одиницях записуємо Xi=μ1+σiZi де σi=σii . У цих умовах умовний розподіл є нормальним зE(Z1|Z2)=ρZ2іρ=σ12/(σ1σ2).Те, що|ρ|1називається "середньою реверсією" або"регресією до середньої": існує велика технічна та популярна література про це вже 130 років.
whuber

2
Скажіть, eroeijr, це ваша посада ? (Окрім "гостя" на початку, в іменах є чітка схожість.) Якщо це ваше, вам слід попросити об'єднати два рахунки і взяти цей великий бонус у балів, які у вас є.
Glen_b

2
Як запропонував @Glen_b, якщо у вас є кілька (незареєстрованих) облікових записів, заповніть форму на сайті stats.stackexchange.com/contact та попросіть їх об'єднати.
chl

Відповіді:


57

Конспект

Кожне твердження у питанні можна зрозуміти як властивість еліпсів. Тільки властивість зокрема до двовимірного нормального розподілу , який необхідний той факт , що в стандартному двовимірне нормальний розподіл --Для якого Х і Y є некоррелірованнимі - умовна дисперсія Y не залежить від X . (Це в свою чергу є безпосереднім наслідком того, що відсутність кореляції передбачає незалежність для спільно нормальних змінних.)X,YXYYX

Наступний аналіз точно показує, яка властивість еліпсів задіяний, і отримує всі рівняння питання, використовуючи елементарні ідеї та найпростішу можливу арифметику, таким чином, щоб їх легко запам'ятати.


Кругові симетричні розподіли

Поширення питання є членом сімейства двовимірних нормальних розподілів. Всі вони походять від основного члена, стандартного двовимірного нормального, який описує два некорельованих стандартних нормальних розподіли (утворюючи дві його координати).

Фіг.1: стандартний двовимірний нормальний розподіл

Ліва сторона - рельєфна ділянка стандартної двовимірної нормальної щільності. Права сторона показує те саме в псевдо-3D, передня частина відрізана.

Це приклад кругового симетричного розподілу: щільність змінюється в залежності від відстані від центральної точки, але не в напрямку від цієї точки. Таким чином, контури її графіка (праворуч) є кола.

Більшість інших двовимірних нормальних розподілів не є круговими симетричними, однак: їх перерізи є еліпсами. Ці еліпси моделюють характерну форму багатьох біваріантних точкових хмар.

Малюнок 2: інший двовимірний нормальний розподіл, нанесений на графіку

Це портрети двовимірного нормального розподілу з коваріаційною матрицею Це модель для даних з коефіцієнтом кореляції-2/3.Σ=(123231).2/3


Як створити еліпси

Еліпс - за його найдавнішим визначенням - це конічний переріз, який є колом, спотвореним проекцією на іншу площину. Розглядаючи характер проекції, як це роблять візуальні художники, ми можемо розкласти його на послідовність спотворень, які легко зрозуміти та обчислити.

Спочатку розтягніть (або, якщо потрібно, стисніть) коло вздовж того, що стане довгою віссю еліпса, поки він не стане правильної довжини:

Крок 1: розтягування

Далі стисніть (або розтягніть) цей еліпс уздовж його другорядної осі:

Крок 2: віджати

По-третє, оберніть його навколо центру в остаточну орієнтацію:

Крок 3: повернути

Нарешті, перемістіть його в потрібне місце:

Крок 4: зміщення

Це все афінні перетворення. (Насправді перші три - це лінійні перетворення ; остаточний зсув робить його афінним.) Оскільки композиція афінних перетворень (за визначенням) ще афінна, чисте спотворення від кола до кінцевого еліпса є афінним перетворенням. Але це може бути дещо складним:

Складене перетворення

Зверніть увагу на те, що сталося з (природними) осями еліпса: після того, як вони були створені зсувом і стисканням, вони (звичайно) обертаються і зміщуються разом із самою віссю. Ми легко бачимо ці осі навіть тоді, коли вони не намальовані, оскільки вони є осями симетрії самого еліпса.

Ми хотіли б застосувати наше розуміння еліпсів для розуміння спотворених кругових симетричних розподілів, як биваріантна нормальна сім'я. На жаль, існує проблема із цими спотвореннями : вони не поважають різницю між осями та y . Обертання на кроці 3 руйнує це. Подивіться на слабкі координатні сітки у фонах: вони показують, що відбувається з сіткою (з сітки 1 /xy1/2в обох напрямках) при спотворенні. На першому зображенні проміжок між початковими вертикальними лініями (показаний суцільним) подвоюється. У другому зображенні відстань між початковими горизонтальними лініями (показано пунктирними) скорочується на третину. На третьому зображенні проміжки сітки не змінені, але всі лінії обертаються. Вони зміщуються вгору і вправо на четвертому зображенні. Підсумкове зображення, показуючи чистий результат, відображає цю натягнуту, стиснуту, обертову, зміщену сітку. Початкові суцільні прямі координати більше не є вертикальними.x

Ідея ключа --one може ризикне сказати , що це суть регресії - це те , що є спосіб , в якому коло може бути спотворений в еліпс без повороту вертикальних ліній . Оскільки винуватцем був обертання, давайте вирішимо переслідувати та покажемо, як створити обертається еліпс, насправді не з’являючись, щоб щось обертати !

Нахилений еліпс

Це перетворення косого. Це насправді робить дві речі одночасно:

  • Він стискається у напрямку (на суму λ , скажімо). Це залишає х-ось у спокої.yλx

  • Він піднімає будь-яку отриману точку на величину, прямо пропорційну x . Записавши цю константу пропорційності як ρ , це посилає ( x , y ) до ( x , y + ρ x ) .(x,y)xρ(x,y)(x,y+ρx)

Другий крок піднімає вісь у пряму y = ρ x , показану на попередньому малюнку. Як показано на цій фігурі, я хочу працювати з особливим перекосом перекосу, яке ефективно обертає еліпс на 45 градусів і вписує його в одиничний квадрат. Головною віссю цього еліпса є пряма y = x . Візуально видно, що | ρ | 1 . (Негативні значення ρ нахиляють еліпс вправо, а не вправо.) xy=ρxy=x|ρ|1ρ Це геометричне пояснення "регресу до середнього".

Вибір кута 45 градусів робить еліпс симетричним навколо діагоналі квадрата (частина прямої ). Щоб визначити параметри цієї перекосової трансформації, дотримуйтесь:y=x

  • Підняття на переміщує точку ( 1 , 0 ) до ( 1 , ρ ) .ρx(1,0)(1,ρ)

  • Симетрія навколо основної діагоналі тоді передбачає, що точка також лежить на еліпсі.(ρ,1)

З чого почався цей момент?

  • Початкова (верхня) точка одиничного кола (маючи неявне рівняння ) з x координатою ρ була ( ρ , x2+y2=1xρ.(ρ,1ρ2)

  • Будь-яку точку форми спочатку стискають до ( ρ , λ y ), а потім піднімають до ( ρ , λ y + ρ × ρ ) .(ρ,y)(ρ,λy)(ρ,λy+ρ×ρ)

Унікальне рішення рівняння єλ=(ρ,λ1ρ2+ρ2)=(ρ,1) . Це сума, на яку повинні бути стиснуті всі відстані у вертикальному напрямку, щоб створити еліпс під кутом 45 градусів, коли він перекошений вертикально наρ.λ=1ρ2ρ

ρ0, 3/10, 6/10,9/10,

Tableau

ρ


Застосування

Ми готові до регресії. Стандартний, елегантний (але простий) метод регресії спочатку виражає оригінальні змінні в нових одиницях вимірювання: ми центруємо їх за допомогою їх засобів і використовуємо їх стандартні відхилення як одиниці. Це переміщує центр розподілу до початку і робить усі його еліптичні контури нахиленими на 45 градусів (вгору або вниз).

x0x0y1ρ2ρxρxx

  • y0

  • ρxxρxy=ρx

xy=ρx : лінія найменших квадратів збігається з лінією регресії.

x координат.

Ми можемо легко сказати більше:

  • (X,Y)Y|X(1ρ2)2=1ρ2

  • 1ρ2ρx

1x1ρ2

ρΣXYXYXY(X,Y)

ε=YρX

ε0Y0ρXρX

3D-графік із умовними розподілами та лінією найменших квадратів

xρ=1/2

Отже

E(XY)=E(X(ρX+ε))=ρE(X2)+E(Xε)=ρ(1)+0=ρ.

X1XεX(ε)ε0

ρXY


Висновки

x(X,Y)xyμxμyσxσy

  • (μx,μy)

  • {(x,ρx)},

  • ρσyρ/σx

Отже, рівняння лінії регресії є

y=σyρσx(xμx)+μy.
  • Y|Xσy2(1ρ2)Y|X(X,Y)X=(XμX)/σxY=(YμY)/σY

Y|X1

  • Σσ11=σx2, σ12=σ21=ρσxσy,σ22=σy2,Y|X

σy2(1ρ2)=σ22(1(σ12σ11σ22)2)=σ22σ122σ11.

Технічні примітки

y

(1ρρ1)=AA

де

A=(10ρ1ρ2).

Набагато більш відомий квадратний корінь - той, який був описаний спочатку (передбачає обертання замість перекосу перекосу); це той, що утворюється в результаті розкладання сингулярного значення, і він відіграє помітну роль в аналізі основних компонентів (PCA):

(1ρρ1)=BB;

B=Q(ρ+1001ρ)Q

Q=(12121212)45

Таким чином, відмінність між PCA і регресією зводиться до різниці двох спеціальних квадратних коренів кореляційної матриці.


1
Красиві фотографії та чудові описи. У оновленні було кілька пропозицій, які залишилися неповними (як ви в основному знали, що збираєтесь сказати, але не зупинилися на остаточній редакції).
кардинал

1
@Cardinal Спасибі Я буду перечитувати це і шукати такі речі, а також неминучі друкарські помилки. Ви занадто ласкаві, щоб вказати на інші речі, які ви неодмінно помітили, наприклад, деякі прогалини в експозиції. Найбільшим є те, що я насправді не показав, що ці еліпси розташовані під кутом 45 градусів (рівнозначно, вписаними в одиничний квадрат); Я просто припустив це. Я все ще шукаю просту демонстрацію. Інше полягає в тому, що можна потурбуватися, щоб перетворення перекосу могло призвести до іншого розподілу, ніж оригінальний зсув розтягування-стискання-обертання - але легко показати, що це не так.
whuber

3
Це справді цікаво. Дякуємо, що знайшли час, щоб написати це.
Білл

У першому абзаці додатків написано, що: "ми центруємо їх за допомогою своїх засобів і використовуємо їх стандартні відхилення як одиниці. Це переміщує центр розподілу до початку і робить усі його еліптичні контури нахиленими на 45 градусів", але я не хочу " t розумієте, як центрування змінних за допомогою засобів переміщає їхні центри до початку та вирівнює їх до 45 градусів?
Kaushal28

f(X,Y)=e12(x2+y2)f(X,Y)f(X)f(Y)

21

YX=xiXX1X20X2x1де ви «прорізаєте» багатоваріантний розподіл. Розглянемо малюнок нижче:

введіть тут опис зображення

X1X2X2X1μX2|X1=25μX2|X1=45.

σ22ΣX2σ2σ

y^i

β^1=Cov(x,y)Var(x)
σ12/σ22μX2|X1=xiμX2μX2 x2iX1X2

Що станеться, якщо ви умовляєте більше змінних? Ви просто додавали б і віднімали зайві доданки від середнього та відхилення?

2
YXy^i=Xiβ^β^=(XTX)1XTY

Що ви використали для створення графіка? Математика?
mpiktas

@mpiktas, мій графік чи потік? Я вважаю, що це Mathematica, але я зробив той, що вище w / R. (Некрасивий код, хоча ...)
gung - Відновити Моніку

1
@mpiktas, я не можу уявити, що мій код колись слід називати "дивним" ... Нормальні криві намальовані з / п dnorm(y). Я просто додаю вихід до 25& 45, & використовую як x.
gung - Відновити Моніку

3

X1X2σ1,2>0X2X2X1X1 .

X2=x2>μ2X2X1σ1,2>0X1X2X2X1

E{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
X2E{X1|X2=x2}>μ1 .

X1X2

BLP{X1|X2=x2}=μ1+σ1,2σ2,2(x2μ2)
BLP

x2μ2σ12/σ22

1
x2>μ2E(X1|X2=x2)<μ1σ1,2>0

1
"Інтуїтивне" не означає "некількості": вони можуть йти разом. Часто важко знайти інтуїтивний аргумент, який дає кількісні результати, але часто це можна зробити, і процес пошуку такого аргументу завжди висвітлює.
whuber

Останній абзац: Я з’ясував, що нормальний розподіл не такий особливий: сім’ї, створені афінними перетвореннями кругово-симетричних розподілів, є особливими (їх дуже багато).
whuber

@whuber Це досить цікаво. У вас є посилання або цитуєте?
Білл
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.