Як працює формула для генерації корельованих випадкових змінних?


19

Якщо у нас є 2 нормальних, некоррельовані випадкові величини ми можемо створити 2 корельовані випадкові величини за формулоюX1,X2

Y=ρX1+1ρ2X2

і тоді матиме кореляцію з .YρX1

Чи може хтось пояснити, звідки береться ця формула?


1
Широке обговорення цього та пов’язаних із цим питань з’являється у моїй відповіді на сайті stats.stackexchange.com/a/71303 . Крім усього іншого, зрозуміло, що (1) припущення про нормальність не має значення і (2) потрібно зробити додаткові припущення: відхилення і повинні бути рівними, щоб кореляція з була . X 2 Y X 1 ρX1X2YX1ρ
whuber

Дуже цікаве посилання. Я не впевнений, я розумію, що ви маєте на увазі, що нормальність не має значення. Якщо або не є нормальним, і важче контролювати щільність за допомогою алгоритму Кайзера-Дікмана. У цьому вся причина спеціалізовані алгоритми для генерації без нормальної корельованих даних (наприклад, Headrick, 2002; Ruscio & Kaczetow, 2008; Vale & Maurelli, 1983) Наприклад, уявіть собі , ваша мета полягає в генерації ~ нормальний, ~ уніформу , з = .5. Використання ~ рівномірних призводить до того, що не є рівномірним ( кінцевому підсумку є лінійною комбінацією нормального та рівномірного). X 2 Y X Y ρ X 2 Y YX1X2YXYρX2YY
Ентоні

@Anthony Питання задається лише співвідношенням , яке є суто функцією першого та другого моментів. Відповідь не залежить від будь-яких інших властивостей розподілів. Те, що ви обговорюєте, - це зовсім інша тема.
whuber

Відповіді:


17

Припустимо, ви хочете знайти лінійну комбінацію X1 і X2 такою, що

corr(αX1+βX2,X1)=ρ

Зауважте, що якщо ви помножите і і β на одну і ту ж (ненульову) константу, кореляція не зміниться. Таким чином, ми додамо умову збереження дисперсії: var ( α X 1 + β X 2 ) = var ( X 1 )αβvar(αX1+βX2)=var(X1)

Це еквівалентно

ρ=cov(αX1+βX2,X1)var(αX1+βX2)var(X1)=αcov(X1,X1)=var(X1)+βcov(X2,X1)=0var(αX1+βX2)var(X1)=αvar(X1)α2var(X1)+β2var(X2)

Якщо припустити, що обидві випадкові величини мають однакову дисперсію (це важливе припущення!) ( ), отримаємовар(Х1)=вар(Х2)

ρα2+β2=α

Існує багато рішень цього рівняння, тому настав час згадати умову збереження дисперсії:

вар(Х1)=вар(αХ1+βХ2)=α2вар(Х1)+β2вар(Х2)α2+β2=1

І це веде до нас

α=ρβ=±1ρ2

UPD . Щодо другого питання: так, це відомо як відбілювання .


9

Рівняння - це спрощена двоваріантна форма розкладу Холеського . Це спрощене рівняння іноді називають алгоритмом Кайзера-Дікмана (Kaiser & Dickman, 1962).

Зауважте, що для правильного роботи цього алгоритму і X 2 повинні мати однакову дисперсію. Також алгоритм зазвичай використовується із звичайними змінними. Якщо X 1 або X 2 не є нормальними, Y може не мати такої ж форми розподілу, як X 2 .X1X2X1X2YX2

Список літератури:

Кайзер, Х. Ф., і Дікман, К. (1962). Матриці оцінки вибірки та сукупності та матриці кореляції вибірки з довільної матриці кореляції сукупності. Психометріка, 27 (2), 179-182.


2
Я думаю, вам не потрібні стандартизовані нормальні змінні, достатньо мати однакову дисперсію.
Артем Соболєв

2
Ні, розподіл є НЕ суміш розподілу , як ви стверджуєте. Y
Діліп Сарват

Точка прийнята, @Dilip Sarwate. Якщо або або X 2 ненормально, Y стає лінійною комбінацією двох змінних, що може не призвести до потрібного розподілу. Це причина спеціалізованих алгоритмів (замість Кайзера-Дікмана) для генерованих ненормальних корельованих даних. X1X2Y
Ентоні

3

Коефіцієнт кореляції - це між двома рядами, якщо їх розглядати як вектори (з n t h точкою даних буде n t h розмірність вектора). Вищенаведена формула просто створює розклад вектора на його компоненти cos θ , s i n θ (стосовно X 1 , X 2 ). якщо ρ = c o s θ , то cosnthnthcosθsinθX1,X2
ρ=cosθ.1ρ2=±sinθ

Оскільки, якщо є некорельованими, кут між ними є прямим кутом (тобто їх можна розглядати як ортогональні, хоч і ненормовані, базисні вектори).X1,X2


2
Ласкаво просимо на наш сайт! Я вірю, що ваш пост приверне більше уваги, якщо ви позначите математичні вирази за допомогою : укладіть їх між знаками долара. Під час редагування доступна допомога. TEX
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.