Як порівнюють гаму Гудмана-Крускаля та кореляції тау Кендалла чи Спірмена?


31

У моїй роботі ми порівнюємо прогнозований рейтинг та справжній рейтинг для деяких наборів даних. До недавнього часу ми використовували лише Кендалл-Тау. Група, яка працює над подібним проектом, запропонувала спробувати використати гамму Гудман-Крускал , і щоб вони віддали перевагу. Мені було цікаво, в чому полягають відмінності між різними алгоритмами кореляції рангів.

Найкращою, яку я знайшов, була ця відповідь , яка стверджує, що Спірман використовується замість звичайних лінійних кореляцій, і що Кендалл-Тау менш прямий і більше нагадує гамму Гудмана-Крускала. Дані, з якими я працюю, схоже, не мають явних лінійних кореляцій, а дані сильно перекошені та ненормальні.

Також Spearman, як правило, повідомляє про більш високу кореляцію, ніж Кендалл-Тау, за нашими даними, і мені було цікаво, що це говорить конкретно про дані. Я не статистик, тому деякі статті, які я читаю над цими речами, мені здаються жаргоном, вибачте.


3
" Спірмен, як правило, повідомляє про кращі кореляції, ніж Кендалл-Тау, за нашими даними, і мені було цікаво, що це говорить про дані конкретно " ... ймовірно, нічого; Kendall є часто ближче до 0 , ніж Спірмена , коли кореляції дуже близько до 0 або \ ч 1 - він вимірює асоціації по- різному; той факт, що він, як правило, менший за величиною, не означає, що співвідношення Спірмена є «кращим»; вони просто вимірюють різні дані щодо даних. Що б змусило вас сказати «краща кореляція»? τ0 ± 1ρ0±1
Glen_b -Встановити Моніку

1
Це було опосередковано те саме, що і моє запитання, @Glen_b; окрім того, я запитував, чому алгоритми повідомили про вищу кореляцію і що це спричинить. Я зміню «кращий» на «вищий», щоб зробити своє значення трохи більш зрозумілим. Ви маєте рацію, що вони вимірюють різні речі і що цифри насправді не мають занадто великого відношення один до одного, але я хотів знати, що означають фактично цифри, на що детально відповіді нижче.
Poik

Відповіді:


29

Спірмен Ро vs Кендалл тау . Ці два настільки обчислювально різні, що ви не можете безпосередньо порівняти їх величини. Зазвичай Spearman вище на 1/4 до 1/3, і це дозволяє зробити висновок про те, що Spearman "кращий" для конкретного набору даних. Різниця між rho і tau полягає в їх ідеології, пропорційності різниці для rho та ймовірності для tau. Rho - звичайний Пірсон r, застосовуваний для ранжируваних даних, і, як r, більш чутливий до точок з великими моментами (тобто відхилень від центру хмари), ніж до очок з малими моментами. Тому rho досить чутливий до форми хмари після рейтингузроблено: коефіцієнт для довгастої ромбічної хмари буде вищим, ніж коефіцієнт для довгастої гантелеподібної хмари (адже гострі краї перших - це великі моменти). Tau є розширенням Gamma і однаково чутливий до всіх точок даних , тому він менш чутливий до особливостей форми рангової хмари. Тау є більш "загальним", ніж rho, оскільки rho є гарантованим лише тоді, коли ви вважаєте, що базові (модельні чи функціональні в популяції) відносини між змінними є строго монотонними. У той час як Тау допускає немонотонну базову криву і вимірює, яка монотонна "тенденція", позитивна чи негативна, переважає там загалом. Rho порівняно з r за величиною; тау - ні.

Кендалл тау як Гамма . Тау - просто стандартизована форма Гамми. Кілька пов'язаних заходів мають чисельник але відрізняються нормалізацією знаменника :PQ

  • Гамма:P+Q
  • D ' ("x залежно"):P+Q+Tx
  • Somers 'D ("y залежно"):P+Q+Ty
  • Somers 'D («симетричний»): середнє арифметичне вище двох
  • Кендалл Тау-б кор. (найбільш підходить для квадратних столів): середнє геометричне значення цих двох
  • Тау-с кор. Кендалла (найбільш підходить для прямокутних столів):N2(k1)/(2k)
  • Кендалл Тау-кор. (робить норегулювання для зв'язків):N(N-1)/2=П+Q+Тх+Ту+Тху

де - кількість пар спостережень із "конкордансом", - з "інверсією"; - кількість зв'язків за змінною X, - за змінною Y, - обома змінними; - кількість спостережень, - кількість чітких значень у тій змінній, де ця кількість менше.Q T x T y T x y N kПQТхТуТхуNк

Таким чином, тау прямо порівнянний в теорії та масштабі з Гаммою. Rho прямо порівняний в теорії та величині з Pearson . Приємна відповідь Ніка Стаунера тут розповідає, як можна порівнювати rho і tau опосередковано.r

Дивіться також про тау та роу.


14

Ось цитата від Ендрю Гілпіна (1993), який виступає за те, що Моріс Кендалл з теоретичних причин над Спірманом :ρτρ

[Кендалл ] наближається до нормального розподілу швидше, ніж , оскільки , розмір вибірки збільшується; і також є більш простежуваним математично, особливо коли є зв'язки. ρ N ττρNτ

Я не можу багато чого додати про Гудмена-Крускала , крім того, що, здається, він дає дещо настільки великі оцінки, ніж Кендалл у вибірці даних опитування, з якими я працював останнім часом ... і звичайно, помітно нижчі оцінки, ніж Спірмена . Однак я також спробував обчислити пару часткових оцінок (Foraita & Sobotka, 2012), і ті вийшли ближче до часткового ніж до часткового ... Однак це зайняло досить багато часу на обробку, тому я залишу симуляційні тести чи математичні порівняння з кимось іншим ... (хто би знав, як їх робити ...)τ ρ γ ρ τγτργρτ

Як випливає з ttnphns , ви не можете зробити висновок, що ваші оцінки кращі, ніж ваші оцінки лише на величину, оскільки їх шкали різняться (навіть якщо межі цього не відповідають). Гілпін цитує Кендалла (1962), коли описує відношення до приблизно 1,5 в порівнянні з більшістю діапазону значень. Вони зближуються поступово у міру збільшення їх величини, так що обидва наближаються до 1 (або -1), різниця стає нескінченною. Гілпін дає гарну велику таблицю еквівалентних значень , , , d та до третьої цифри дляτ ρ τ ρ r r 2 Z r τ rρτρτρrr2Zrτз кожним кроком .01 по всьому його діапазону, як і ви очікували побачити всередині обкладинки підручника з введення статистики. Він ґрунтувався на цих значеннях на конкретних формулах Кендалла: (я спростив цю формулу для з форма, в якій писав Гілпін, що стосується . Пірсона )ρr

r=гріх(τπ2)ρ=6π(τарцин(гріх(τπ2)2))
ρr

Можливо, було б сенс перетворити свій вρτρ і подивитися, як обчислювальна зміна впливає на оцінку розміру вашого ефекту. Здається , що порівняння було б дати деяке уявлення про те , якою мірою проблеми , які Спірмена є більш чутливим до присутні в ваших даних, якщо на всіх. Більш прямі методи, безумовно, існують для визначення кожної конкретної проблеми окремо; моя пропозиція створить більше швидкого та брудного розміру ефекту омнібуса для цих проблем. Якщо різниці немає (після виправлення різниці в масштабі), можна стверджувати, що не потрібно шукати далі проблем, які стосуються лишеρρρ. Якщо є суттєва різниця, то, мабуть, час вирвати збільшувальну лінзу, щоб визначити, що є причиною.

Я не впевнений, як зазвичай люди повідомляють про розміри ефектів при використанні Kendall (на жаль, обмежена кількість людей, які взагалі турбуються про розміри ефектів звітування), але оскільки, мабуть, малознайомі читачі спробують інтерпретувати це за шкалою Пірсона , можливо, було б доцільно повідомити як про вашу статистику і про її розмір ефекту за шкалою використовуючи вищевказану формулу перетворення ... або принаймні вказати на різницю в масштабі і дати крик Гілпіну за його зручну таблицю перетворення . r τ rτrτr

Список літератури

Foraita, R., & Sobotka, F. (2012). Валідація графічних моделей. gmvalid пакет, v1.23. Комплексна мережа архівів R. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Гілпін, А.Р. (1993). Таблиця для перетворення Тау Кендалла в Rho Spearman в контексті вимірювання величини ефекту для мета-аналізу. Навчально-психологічний вимір, 53 (1), 87-92.

Kendall, MG (1962). Методи кореляції рейтингу (3-е видання). Лондон: Гріффін.


9

Це все хороші показники монотонної асоціації. Спірман пов'язаний з ймовірністю узгодження більшості серед випадкових трійків спостережень, а (Кендалл) та (Гудман-Крускал) пов'язані з парним узгодженням. Основне рішення зробити при виборі по порівнянні , чи хочете ви оштрафувати для зв'язків в і / або . не карає за зв'язки в будь-якому, так що порівняння прогнозної здатності і при прогнозуванні не винагородить жодного зτ γ γ τ X Y γ X 1 X 2 Y X X X γρτγγτХYγХ1Х2YХs, щоб бути більш безперервним. Ця відсутність винагороди робить його трохи невідповідним тестам на коефіцієнт ймовірності на основі моделі. , який сильно прив'язаний (скажімо , бінарну ) може мати високу .ХХγ


2
Френк, ти можеш пояснити це Spearman's ρ is related to the probability of majority concordance among random triplets of observationsбільш детально, якщо не дуже складно з математики? Спасибі.
ttnphns

1
Я читав це багато років тому, напевно, у непараметричному тексті статистики. Я не зміг знайти посилання.
Френк Харрелл

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.