Коефіцієнти подібності двійкових даних: Чому вибирають Жакарда над Расселом та Рао?


20

З Енциклопедії статистичних наук я розумію, що за даними дихотомічних (бінарних: 1 = присутній; 0 = відсутніх) атрибутів (змінних) ми можемо сформувати таблицю непередбачених ситуацій для будь-яких двох об'єктів i та j вибірки:p

         j
       1   0
      -------
  1  | a | b |
i     -------
  0  | c | d |
      -------
a = number of variables on which both objects i and j are 1
b = number of variables where object i is 1 and j is 0
c = number of variables where object i is 0 and j is 1
d = number of variables where both i and j are 0
a+b+c+d = p, the nubmer of variables.

Ми можемо обчислити з цих значень коефіцієнти подібності між будь-якою парою об'єктів, зокрема коефіцієнтом Жакарда і коефіцієнт Рассела і Рао a

аа+б+c
аа+б+c+г=аp.

г

Відповіді:


14

Існує багато таких коефіцієнтів (більшість висловлюється тут ). Просто спробуйте роздумувати над тим, які наслідки мають різниці у формулах, особливо коли ви обчислюєте матрицю коефіцієнтів.

Уявімо, наприклад, що об'єкти 1 і 2 подібні, як об’єкти 3 і 4. Але 1 і 2 мають багато атрибутів у списку, тоді як 3 і 4 мають лише кілька атрибутів. У цьому випадку Рассел-Рао (частка співатрибутів у загальній кількості розглянутих атрибутів) буде високою для пари 1-2 і низькою для пари 3-4. Але Жаккард (частка співатрибутів до комбінованої кількості атрибутів обох об'єктів має = ймовірність того, що якщо в будь-якого об’єкта є атрибут, то у них обох є), буде високою для обох пар 1-2 і 3-4.

(аа+б+аа+c)/2

aa+baa+c
bc

PS

Це лише тому, що для деяких наборів даних одночасна відсутність обох атрибутів (d) не передає жодної інформації?

г

Зауважте також, що якщо ви хочете обчислити схожість між об'єктами на основі 1+ номінальних атрибутів (дихотомічних або багатотомних), перекодируйте кожну таку змінну у набір фіктивних бінарних змінних. Тоді рекомендованим заходом подібності для обчислення буде Dice ( який , коли обчислюється для 1+ наборів фіктивних змінних, еквівалентний Ochiai та Kulczynski-2).


2
Різні терміни були запропоновані припущеною аналогією з "дихотомічними" для класифікацій з більш ніж двома категоріями. "Політомний" є лінгвістичним кращим, ніж "багатохотовий", який ґрунтується на хибній здогадці, що "дихотомічний" розбирається на два грецьких кореня, "ді" та "чотоми". "Багатохотомічні" сполуки, які помиляються при використанні латинського кореня. Хоча слова з окремим латинським та грецьким корінням пережили зневагу мовознавців (наприклад, "телебачення"), я раджу вживати тут "багатотомних".
Нік Кокс

Дякую, що нагадали. Я насправді знав, про що ви говорите, і намагаюся бути пуристичним сам ... коли я не поспішаю. Я відредагую.
ttnphns

3

Корисність коефіцієнта Танімото над традиційною точністю (тобто Рассел-Рао) очевидна в аналізі зображень при порівнянні сегментації із золотим стандартом. Розглянемо ці два зображення:

введіть тут опис зображення

У кожному з цих зображень, що є двійковими «масками», у нас є два об’єкти однакового розміру, але розміщені в дещо різних місцях, і ми хочемо оцінити, наскільки ці об’єкти однакові за формою та положенням, оцінюючи їх накладення. Зазвичай одна (наприклад, фіолетова маска) - це сегментація (виробляється за допомогою комп'ютерного алгоритму), наприклад, це може бути спроба виявити серце з медичного зображення. Інший (наприклад, зелений) - це золотий стандарт (тобто серце, як визначив експерт-клініцист). Там, де є білий колір, дві форми перекриваються. Чорні пікселі - фон.

Два зображення однакові (тобто результат алгоритму сегментації, а також золотого стандарту є однаковими для обох зображень), за винятком багатьох фонових «підкладок» у другому зображенні (наприклад, це може представляти два експерименти з дві різні рентгенівські апарати, де 2-й апарат мав ширший промінь, що охоплював більше площі тіла, але в іншому випадку розмір серця однаковий у обох наборах зображень).

Очевидно, оскільки стандарт сегментації та золото в обох зображеннях однаковий, якщо ми оцінюємо точність сегментації по відношенню до золотого стандарту, ми хотіли б, щоб наша метрика отримала однаковий результат «точності» в обох експериментах.

Однак, якщо ми спробуємо оцінити якість сегментації за допомогою підходу Русселя-Рао, ми отримаємо оманливо високу точність правильного зображення (близько 100%), оскільки "фонові пікселі, визначені правильно як фонові пікселі", сприяють загальна точність наборів та фонових пікселів непропорційно представлена ​​у другому наборі. Об'єкти, перекриття яких ми хочемо оцінити в медичній сегментації, часто є крихітними цятками на масивному тлі, тому це не дуже корисно для нас. Крім того, це призведе до проблем, якби ми намагалися порівнювати точність одного алгоритму сегментації з іншим, і обидва оцінювались на зображеннях різної величини! (або, що рівнозначно, в різних масштабах).Масштабування / розмір вбудованого зображення не повинно змінювати оцінку сегментації щодо золотого стандарту! .

Навпаки, коефіцієнт танімото не піклується про фонові пікселі, що робить його інваріантним до "масштабу". Що стосується коефіцієнта танімото, то подібність обох цих наборів буде ідентичною, що зробить нам набагато кориснішим показником подібності використання для оцінки якості алгоритму сегментації.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.