Інтуїція щодо визначення коваріації


11

Я намагався краще зрозуміти коваріацію двох випадкових змінних і зрозуміти, як перша людина, яка думала про це, дійшла до визначення, яке звичайно використовується в статистиці. Я пішов у вікіпедію, щоб краще зрозуміти це. Зі статті виходить, що хороший показник або кількість кандидата для повинен мати такі властивості:Cov(X,Y)

  1. Це має бути позитивним знаком, коли дві випадкові величини схожі (тобто коли одна збільшує іншу, а коли зменшується, а інша також).
  2. Ми також хочемо, щоб він мав негативний знак, коли дві випадкові величини протилежно однакові (тобто коли одна збільшує іншу випадкову змінну, як правило, зменшується)
  3. Нарешті, ми хочемо, щоб ця величина коваріації була нульовою (або, мабуть, надзвичайно малою?), Коли дві змінні не залежать одна від одної (тобто вони не змінюються спільно залежно одна від одної).

З наведених властивостей ми хочемо визначити . Перше моє запитання: мені не зовсім очевидно, чому відповідає цим властивостям. Із властивостей, які ми маємо, я б очікував, що ідеальним кандидатом є більше «похідне» рівняння. Наприклад, щось подібне, "якщо зміна X позитивна, то зміна Y також має бути позитивною". Крім того, навіщо брати відмінність від середньої "правильної" речі?Cov(X,Y)Cov(X,Y)=E[(XE[X])(YE[Y])]

Більш дотичне, але все ж цікаве питання: чи існує інше визначення, яке могло б задовольнити ці властивості і все-таки було б значущим і корисним? Я запитую це, тому що, здається, ніхто не сумнівається, чому ми в першу чергу використовуємо це визначення (це виглядає так, що "це завжди було таким чином", що, на мою думку, є жахливою причиною і перешкоджає науковому та математична цікавість та мислення). Чи прийняте визначення є найкращим визначенням, яке ми могли б мати?


Це мої думки щодо того, чому прийняте визначення має сенс (єдиний його інтуїтивний аргумент):

Нехай є деякою різницею для змінної X (тобто вона змінювалася з деякого значення на якесь інше значення за певний час). Аналогічно для визначити Д Y .ΔXΔY

За один приклад ми можемо обчислити, чи пов’язані вони чи ні, зробивши:

sign(ΔXΔY)

Це дещо приємно! Для одного випадку в часі він задовольняє потрібні нам властивості. Якщо вони обоє збільшуються разом, то більшу частину часу вищевказана кількість повинна бути позитивною (і аналогічно, коли вони протилежно схожі, це буде негативними, оскільки 's матиме протилежні ознаки).Deltа

Але це дає нам лише кількість, яку ми хочемо на один екземпляр у часі, і оскільки вони rv, ми могли б переоцінити, якщо ми вирішимо базувати зв'язок двох змінних на основі лише 1 спостереження. Тоді чому б не взяти сподівання на це, щоб побачити "середній" продукт відмінностей.

сiгн(Е[ΔХΔY])

Що має в середньому фіксувати те, що таке середнє співвідношення, як визначено вище! Але єдина проблема, яку має це пояснення, полягає в тому, чим ми вимірюємо цю різницю? Що, мабуть, вирішується шляхом вимірювання цієї різниці від середнього (що чомусь правильно робити).

Я здогадуюсь, головне питання, яке я маю з визначенням, це прийняття різниці у формі середнього . Я, здається, ще не можу це виправдати.


Інтерпретацію знаку можна залишити для іншого питання, оскільки це здається більш складною темою.


2
Самою відправною точкою може бути концепція або інтуїція перехресного продукту (коваріація - це лише розширення його). Якщо у нас є два ряди чисел X і Y однакової довжини, і ми визначаємо підсумований перехресний добуток як сума (Xi * Yi), то він максимізується, якщо обидва ряди були відсортовані в одному порядку, і мінімізується, якщо один серії сортували за зростанням, а інші за спаданням.
ttnphns

Відмінність від середньої не є принциповим питанням. Важлива саме величина, відмінність від походження; чомусь природно і зручно покласти походження в середнє значення.
ttnphns

@ttnphns, ви говорите, що якщо вони коваріруються разом, тоді коваріацію слід "максимізувати", а якщо вони будуть коварі навпроти, вона повинна бути настільки ж негативною? (тобто мінімізовано) Чому його тоді не визначають як очікування перехресного продукту?
Чарлі Паркер

Коваріація природна для змінних без притаманного походження. Потім ми обчислюємо середнє значення як джерело (середні мають приємні властивості, не пов'язані з темою асоціації, тому її зазвичай вибирають). Якщо походження властиве і має сенс, доцільно дотримуватися його, тоді "коваріація" (спільний вибух) не буде симетричною, але кого це хвилює?
ttnphns

1
Ця відповідь дає дуже приємну частину інтуїції, що стосується коваріації.
Glen_b -Встановіть Моніку

Відповіді:


10

Уявіть, що ми починаємо з порожнього стопки чисел. Потім починаємо малювати пари з їх спільного розподілу. Може статися одна з чотирьох речей:(Х,Y)

  1. Якщо і X, і Y більші, то їхні середні середні значення, ми говоримо, що пара схожа, і тому ми ставимо додаткове число на стек.
  2. Якщо і X, і Y менші, ніж їхні середні середні значення, ми говоримо, що пара схожі і ставимо додаткове число на стек.
  3. Якщо X більший за середнє, а Y менший від його середнього, ми говоримо, що пара відрізняється, і на стек ставиться від’ємне число.
  4. Якщо X менше, ніж його середнє значення, а Y більший за його середнє, ми говоримо, що пара відрізняється, і на стек ставиться від’ємне число.

Потім, щоб отримати загальну міру (()) подібності X і Y, ми складаємо всі значення чисел на стеку. Позитивна сума говорить про те, що змінні рухаються в одному напрямку в той же час. Негативна сума говорить про те, що змінні переміщуються в протилежні сторони частіше, ніж ні. Нульова сума говорить про те, що знання напрямку однієї змінної не говорить вам багато про напрямок іншої.

Важливо думати про «більший за середній», а не просто про «великий» (або «позитивний»), тому що будь-які дві негативні змінні можуть бути визнані подібними (наприклад, розмір наступної аварії автомобіля на M42 і кількість квитків, придбаних на залізничному вокзалі Паддінгтона завтра).

Формула коваріації - формалізація цього процесу:

Ков(Х,Y)=Е[(Х-Е[Х])(Y-Е[Y])]

Використовуючи розподіл ймовірностей, а не монте-карло-моделювання та вказуючи розмір числа, який ми ставимо на стек.


Ого, це дуже гарна відповідь. Тільки одна остання річ, ви заперечуєте , додавши більш детальну інформацію про виправдання про те, чому він повинен бути різниця утворюють середнє ? Чому б не якесь інше значення? Чому це має сенс? Я думаю, що це головне, що змушує мене зациклюватися на повній інтерналізації цього визначення. Спасибі, btw!
Чарлі Паркер

Дякую. Припустимо, у двох різних країнах є дві великі вантажівки. Зараз великі вантажні автомобілі, як правило, перевозять великі вантажі. Якби ми додавали позитивне число до штабеля щоразу, коли кожна вантажівка перевозила великі вантажі, ми в кінцевому підсумку повинні сказати, що поведінка двох вантажівок була дуже схожою. Але насправді розмір вантажу, що перевозиться однією вантажівкою, не пов'язаний з розміром вантажу, який перевозить інший у будь-який конкретний момент. Вони просто трапляються як великі вантажівки. Тож наша міра подібності не була б корисною. Ось чому ми повинні думати про «більший за середній».
домисли

Вибачте, це трохи пізно, але я вирішив переглянути цю тему, і у мене все ще виникає питання, чому її відмінність від середньої. Чи важлива відмінність від відповідних засобів, оскільки кожна випадкова величина X і Y може походити з різних масштабів? тобто, щоб мати відчуття того, що таке "велике", його різне залежно від того, якою базовою шкалою вони є. Тож для подолання цього питання масштабу ми порівняємо його з відповідними засобами?
Чарлі Паркер

1

Ось мій інтуїтивно зрозумілий погляд на це без будь-яких рівнянь.

  1. Його узагальнення дисперсії до вищих розмірів. Мотивація, ймовірно, виникла завдяки спробі описати, як поводяться дані. До першого порядку ми маємо його розташування - середнє. До другого порядку маємо розкид - коваріацію.

    Я здогадуюсь, головне питання, яке я маю з визначенням, це прийняття різниці у формі середнього. Я, здається, ще не можу це виправдати.

    розсіювання оцінюється відносно центру розподілу. Найбільш основне визначення дисперсії - «середнє відхилення від середнього значення». отже, ви повинні підсумувати середнє значення і у випадку коваріації.

  2. Ще одна головна мотивація, яка спадає на думку, - це необхідність визначити спосіб вимірювання відстані між випадковими змінними. Махаланобіська відстань та коваріація йдуть рука об руку: Враховуючи розподіл Гаусса та два інші зразки, які мають рівну евклідову відстань до середнього рівня розподілу. Якщо я запитав би вас, який із зразків є більш чужим, ніж той, який не був витягнутий з гауссового розподілу, евклідова відстань не обійдеться. Відстань махаланобіса має єдину помітну відмінність від евклідової відстані: вона враховує розсіювання (коваріантність) розподілу. Це дозволяє узагальнити відстань до випадкових змінних.


1
  1. Нарешті, ми хочемо, щоб ця величина коваріації була нульовою (або, мабуть, надзвичайно малою?), Коли дві змінні не залежать одна від одної (тобто вони не змінюються спільно залежно одна від одної).

(12)ХYЕ[ХY]Е[ХY]=14Х^=1000ХY^=1000YЕ[Х^Y^]=250,000(Х,Y)=Е[(Х-Е[Х])(Y-Е[Y])]

  1. Ми також хочемо, щоб він мав негативний знак, коли дві випадкові величини протилежно однакові (тобто коли одна збільшує іншу випадкову змінну, як правило, зменшується)

ХY=1-ХЕ[ХY]=0(Х,Y)=Е[(Х-Е[Х])(Y-Е[Y])]

  1. Це має бути (sic) позитивним знаком, коли дві випадкові величини схожі (тобто коли одна збільшує іншу, а коли одна зменшує і інша).

ХY=Х-1Е[ХY](Х,Y)=Е[(Х-Е[Х])(Y-Е[Y])] дає позитивне значення так само, як ви цього хочете.

Х=Y


1

Мені було цікаво одне й те саме питання, і інтуїція, яку дають здогадки, мені допомогла. Щоб візуалізувати інтуїцію, я взяв два випадкових нормальних вектора, x і y, побудував схему розсіювання та пофарбував кожну точку добутком їх відхилень від відповідних засобів (синій для позитивних значень, червоний для від’ємних).

Як видно з сюжету, продукт є найбільш позитивним у верхньому правому та нижньому лівому квадрантах, в той час як він найбільш негативний у нижньому правому та верхньому лівому квадрантах. Ефект підсумовування продуктів призведе до 0, оскільки сині точки відміняють червоні.

Але ви можете бачити, що якщо ми видалили червоні точки, решта даних виявляють позитивні відносини між собою, що підтверджується позитивною сумою продуктів (тобто сумою синіх точок).

введіть тут опис зображення


0

у векторному просторі випадкових змінних доцільно визначити квадрат відстані між двома випадковими змінними x та y з E {(xy) ^ 2} тепер щодо цього визначення добутового добутку або відношення випадкових змінних буде E {xy}, що настільки схоже на визначення коваріації, за винятком термінів -E {x} і -E {y}, які призначені для свого роду нормалізації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.