Коваріація між двома випадковими змінними визначає міру того, наскільки вони лінійно пов'язані між собою. Але що робити, якщо спільний розподіл круговий? Звичайно, в структурі розподілу є структура. Як ця структура видобувається?
Коваріація між двома випадковими змінними визначає міру того, наскільки вони лінійно пов'язані між собою. Але що робити, якщо спільний розподіл круговий? Звичайно, в структурі розподілу є структура. Як ця структура видобувається?
Відповіді:
Під "круговим" я розумію, що розподіл зосереджено на круговій області, як у цій контурній графіці pdf.
Якщо така структура існує, навіть частково, природним способом її ідентифікації та вимірювання є середнє розподіл по колу навколо її центру . (Інтуїтивно це означає, що для кожного можливого радіуса ми повинні поширювати ймовірність перебування на відстані від центру однаково навколо у всіх напрямках.) Позначаючи змінні як , центр повинен бути розташований у точці перші моменти . Для проведення усереднення зручно визначити функцію радіального розподілу
Це фіксує загальну ймовірність пролягання між відстані та центром від центру. Для того, щоб поширити його на всіх напрямках, нехай випадкова величина з ВПР і рівномірна випадкова величина на незалежно від . Біваріантна випадкова величина - це середнє значення . (Це робить роботу, яку наша інтуїція вимагає "кругового середнього", тому що (а) вона має правильний радіальний розподіл, а саме за побудовою, і (b) всі напрямки від центру () однаково вірогідні.)
На даний момент у вас є багато варіантів: залишається лише порівняти розподіл з розподілом . Можливості включають відстань та розбіжність Кульбека-Лейблера (разом із безліччю мір, пов'язаних з відстані: симетризована дивергенція, відстань Геллінгера, взаємна інформація тощо ). Порівняння припускає, що може мати кругову структуру, коли вона "близька" до . У цьому випадку структура може бути «вилучені» з властивостей . Наприклад, міра центрального розташування , така як його середня або медіана, ідентифікує "радіус" розподілу , а стандартне відхилення (або інша міра масштабу) виражає те, як "розтікаються" в радіальних напрямках щодо їх центрального розташування .
Під час вибірки з розподілу з даними , розумним тестом на циркулярність є оцінка центрального розташування як зазвичай (за допомогою засобів або медіанів) і звідти перетворення кожного значення у полярні координати відносно оціночного центру. Порівняйте стандартне відхилення (або IQR) радіусів із середнім значенням (або медіаною). Для некруглих розподілів співвідношення буде великим; для кругових розподілів він повинен бути порівняно невеликим. (Якщо ви маєте на увазі конкретну модель для базового розподілу, ви можете опрацювати розподіл вибірки радіальної статистики та побудувати з нею тест на значимість.) Окремо випробуйте кутову координату на рівномірність у інтервалі . Це буде приблизно рівномірним для кругових розподілів (і для деяких інших розподілів теж); нерівномірність вказує на відхід від кругової.
Взаємна інформація має властивості, дещо аналогічні коваріації. Коваріація - це число, яке дорівнює 0 для незалежних змінних, і ненулеве значення для змінних, лінійно залежних. Зокрема, якщо дві змінні однакові, то коваріація дорівнює дисперсії (що зазвичай є додатним числом). Одне з питань коваріації полягає в тому, що він може бути нульовим, навіть якщо дві змінні не є незалежними, за умови, що залежність нелінійна.
Взаємна інформація (ІМ) - це негативне число. Він дорівнює нулю, якщо і тільки якщо дві змінні статистично незалежні. Ця властивість є більш загальною, ніж коваріація і охоплює будь-які залежності, включаючи нелінійні.
Якщо дві змінні однакові, MI дорівнює ентропії змінної (знову ж таки, як правило, додатне число). Якщо змінні різні та не детерміновано пов'язані, то ІМ менший, ніж ентропія. У цьому сенсі ІМ двох змінних перебуває між 0 і H (ентропія), причому 0 тільки якщо незалежний, а H лише у випадку детермінованої залежності.
Одна відмінність від коваріації полягає в тому, що «ознака» залежності ігнорується. Напр. , але .
Погляньте на наступну статтю з науки - вона точно стосується вашої точки зору:
Виявлення нових асоціацій у великих наборах даних Девід Н. Решеф та ін.
З реферату:
Виявлення цікавих зв’язків між парами змінних у великих наборах даних стає все більш важливим. Тут ми представляємо міру залежності для двох змінних відношень: максимальний інформаційний коефіцієнт (MIC). MIC фіксує широкий спектр асоціацій як функціональних, так і не, а для функціональних зв'язків забезпечує бал, який приблизно дорівнює коефіцієнту визначення (R ^ 2) даних щодо функції регресії. MIC належить до більшого класу статистики максимальної непараметричної розвідки на основі інформації (MINE) для виявлення та класифікації взаємозв'язків. Ми застосовуємо MIC та MINE до наборів даних у галузі глобального здоров'я, експресії генів, бейсболу вищої ліги та мікробіоти кишечника людини та визначаємо відомі та нові стосунки.
Додатковий матеріал ви знайдете тут: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
Автори навіть надають безкоштовний інструмент, що включає новий метод, який можна використовувати з R та Python: http://www.exploredata.net/