Коли коваріація відстані менш відповідна, ніж лінійна коваріація?


21

Мене щойно познайомили (неясно) з короваріацією / кореляцією броун / відстань . Це здається особливо корисним у багатьох нелінійних ситуаціях під час тестування на залежність. Але це, здається, не використовується дуже часто, хоча коваріація / кореляція часто використовується для нелінійних / хаотичних даних.

Це мене думає, що можуть бути деякі недоліки в відстані коваріації. Отже, що вони таке, і чому не завжди завжди завжди використовується коваріація відстані?



Я читав, що ви використовували dcov для порівняння нелінійних часових рядів і комбінували їх з вагою. Мені було цікаво, якщо ви зробили використання коефіцієнта зваженої відстані? кореляція відстані? Я намагаюся це зробити, але не впевнений, чи правильно вводити вектор ваги у формули кореляції відстані.
user3757561

Ні, вибачте @ user3757561, я просто намагався співставити відстань як заміну кореляції, а потім створив ваги на основі цього. Але я все одно не використовував його ...
naught101

Відповіді:


18

Я спробував зібрати кілька зауважень щодо коваріації відстані на основі вражень від читання посилань, перелічених нижче. Однак я не вважаю себе експертом з цієї теми. Коментарі, виправлення, пропозиції тощо вітаються.

Зауваження (сильно) упереджене до потенційних недоліків, як це вимагається в оригінальному запитанні .

Як я бачу, можливі недоліки такі:

  1. Методика нова . Я здогадуюсь, що це єдиний найбільший фактор щодо недостатньої популярності в цей час. Документи, що окреслюють коваріацію відстані, починаються з середини 2000-х років і просуваються до сьогодні. Процитований вище документ є тим, хто привернув найбільше уваги (галас?) І йому менше трьох років. На противагу цьому, теорія та результати щодо кореляційних та кореляційних заходів мають вже понад століття роботи за ними.
  2. Основні поняття є більш складними . Пирсон-співвідношення продукту-моменту, на операційному рівні, можна легко пояснити коледжу-першокурснику без обчислення. Можна викласти просту "алгоритмічну" точку зору, а геометричну інтуїцію легко описати. На противагу цьому, у випадку коваріації відстані навіть поняття сум продуктів парних евклідових відстаней є дещо складнішим, а поняття коваріації відносно стохастичного процесу виходить далеко за рамки того, що можна розумно пояснити такій аудиторії .
  3. Він обчислювально складніший . Основним алгоритмом обчислення статистики тесту є у розмірі вибірки на відміну від O ( n ) для стандартних кореляційних показників. Для невеликих розмірів вибірки це не велика справа, але для більш великих вони стають важливішими.О(н2)О(н)
  4. ХYХYχ12
  5. |ρ|
  6. Невідомі властивості живлення . Послідовність всіх альтернатив по суті гарантує, що коваріація відстані повинна мати дуже низьку потужність проти деяких альтернатив. У багатьох випадках людина готова відмовитись від загальності, щоб отримати додаткову владу проти певних альтернативних інтересів. В оригінальних статтях показано кілька прикладів, коли вони стверджують про високу потужність щодо стандартних кореляційних показників, але я вважаю, що, повернувшись до (1.) вище, його поведінка щодо альтернатив ще недостатньо зрозуміла.

Ще раз повторюю, що ця відповідь, мабуть, стикається з досить негативною. Але це не є наміром. Існує кілька дуже красивих і цікавих ідей, пов'язаних з коваріацією відстані, і відносна новизна цього також відкриває шляхи дослідження для більш повного його розуміння.

Список літератури :

  1. GJ Szekely та ML Rizzo (2009), броунівська коваріація відстані , Енн. Додаток Статист. , т. 3, ні. 4, 1236–1265.
  2. Г. Дж. Секелі, М. Л. Ріццо та Н. К. Бакіров (2007), Вимірювання та випробування незалежності за допомогою співвідношення відстаней , Енн. Статист. , т. 35, 2769–2794.
  3. Р. Ліонс (2012), Коваріація відстані в метричних просторах , Енн. Імовірно. (з'явитися).

Відмінна відповідь, дякую. Дещо це трохи над головою, але я думаю, я зможу це виправити сам :)
naught101

1
Дивіться також підсумки та обговорення: Клуб статистики "Браунівська відстань", Бенджамін Каулі та Джузеппе Вінчі 27 жовтня 2014 р. Stat.cmu.edu/~ryantibs/journalclub/dcov.pdf
Феліпе Г. Нівінський

2
О(нжурналн)

3

Я цілком можу щось пропустити, але тільки наявність кількісної оцінки нелінійної залежності між двома змінними, здається, не має великої користі. Це не скаже вам форму відносин. Це не дасть вам ніяких засобів передбачити одну змінну від іншої. За аналогією, виконуючи дослідницький аналіз даних, іноді використовується крива льосу (плавніша локальна зважена розсіювач) як перший крок до визначення того, чи найкраще моделюються дані з прямою лінією, квадратикою, кубікою тощо. Але льос в і сам по собі не дуже корисний інструмент прогнозування. Це лише перше наближення до шляху пошуку працездатного рівняння для опису двовимірної форми. Це рівняння, на відміну від льосового (або результату коваріації відстані), може скласти основу підтверджуючої моделі.


Для моїх цілей вона має виграш. Я не використовую dcov () для передбачення чого-небудь, скоріше, для порівняння декількох нелінійних часових рядів в ансамблі та поєднання їх з вагами на основі їх залежності. У цій ситуації dcov () має потенційно великі переваги.
naught101

@ naught101 Чи можете ви помістити трохи рудних відомостей. Мені це звучить цікаво з точки зору зважування на основі нелінійної залежності. Ви маєте на увазі класифікацію часових рядів у групи? Також - на чому наголошують великі та низькі ваги у цьому сценарії?
катафалк

2
@PraneethVepakomma: перевірити мою відповідь на stats.stackexchange.com/questions/562/…
naught101

1
Крім того, якщо ви знаєте загальну форму залежності (наприклад, поліноміальне рівняння), то ви можете кількісно оцінити силу залежності, використовуючи коефіцієнт визначення, див., Наприклад, Обчислюване з регульованим R2 для поліноміальних регресій
Феліпе Г. Нівінський
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.