Порівняння двох гістограм за допомогою відстані Chi-Square


18

Я хочу порівняти два образи облич. Я підрахував їхні LBP-гістограми. Тому зараз мені потрібно порівняти ці дві гістограми і отримати щось, що дозволить сказати, наскільки ці гістограми рівні (0 - 100%).

Існує багато способів вирішення цього завдання, але автори методу LBP підкреслюють (Опис обличчя з локальними бінарними візерунками: Застосування до розпізнавання обличчя. 2004), що відстань Chi-квадрата краще, ніж перетин гістограми та статистика вірогідності журналу.

Автори також показують формулу відстані Chi-Square:

i=1н(хi-уi)2(хi+уi)

Якщо н - кількість бункерів, хi - значення першого біна, - значення другого біна.уi

У деяких дослідженнях (наприклад, сімейство відстань від квадратних гістологій Гі), я бачив, що формула відстані Chi-квадрата:

12i=1н(хi-уi)2(хi+уi)

І там http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm я бачу, що формула відстані Chi-Square:

i=1n(xiyi)2yi

Я затримався з цим. У мене є кілька питань:

  1. Який вираз я повинен використовувати?
  2. Як слід інтерпретувати результат різниці? Я знаю, що різниця, що дорівнює 0, означає, що обидві гістограми рівні, але як я можу знати, коли обидві гістограми абсолютно різні? Чи потрібно для цього використовувати таблицю Chi-Square? Або мені потрібно використовувати поріг? В основному я хочу відобразити різницю в відсотках.
  3. Чому ці три вирази різні?

Хіба не значення того ж біна, що і xi, але в порівняльному розподілі, а не другого біна?
ReneBt

Відповіді:


7

@Silverfish попросив розширити відповідь від PolatAlemdar, яка не була надана, тому я спробую розширити цю проблему тут.

Чому назва чіскедра відстань? Тест чісквара для таблиць на випадок надзвичайних ситуацій заснований на так ідеящоб зберегти цю форму і використовувати йогоякості міри відстані. Це дає третю формулу ОП, зxiінтерпретується як спостереження, аyi -як очікування, що пояснює коментар ПолатАлемдара "Використовується в дискретних розподілах ймовірностей", як, наприклад, у справі тесту на придатність. Ця третя форманеє функцією відстані, оскільки вона асиметрична в зміннихxіy. Для порівняння гістограми нам потрібна функція відстані, симетрична вxіy, і дві перші форми дають це. Різниця між ними - лише постійний коефіцієнт1

χ2=cells(OiEi)2Ei
xiyixyxy , що неважливо, якщо ви просто послідовно вибираєте одну форму (хоча версія з додатковим фактором112 краще, якщо ви хочете порівняти з асиметричною формою). Зауважимо подібність у цих формулах із квадратом евклідової відстані, тобто не випадковість, відстань чіскадра - це свого родузваженаевклідова відстань. З цієї причини формули в ОП зазвичай ставлять під кореневим знаком, щоб отримативідстань. Далі ми слідуємо за цим.12

Відстань на чіскверті використовується також у кореспондентському аналізі. Щоб побачити співвідношення до використовуваної форми, нехай є осередками таблиці непередбачених ситуацій з R рядками та стовпцями C. Позначимо підсумки рядків x + j = i x i j, а підсумкові стовпці x i + = j x i j . Відстань між чітками між рядками l , k задається χ 2 ( l , k ) =xijRCx+j=ixijxi+=jxijl,k Для випадку, що містить лише два ряди (дві гістограми), вони відновляють першу формулу ОП (за модулем кореневий знак).

χ2(l,k)=j1x+j(xljxl+xkjxk+)2
EDIT

Відповідаючи на запитання в коментарях нижче: Книга з довгими дискусіями про відстань чіскарда - "АНАЛІЗ КОРРЕСПОНДЕНЦІЇ В ПРАКТИЦІ (друге видання)" Майкла Грінакре (Chapman & Hall). Це добре відома назва, що походить від її подібності до chisquare як використовується для таблиць на випадок надзвичайних ситуацій. Яке поширення воно має? Я ніколи цього не вивчав, але, ймовірно, (за певних умов ...) це мало б певне розподілення, приблизно. Докази повинні бути аналогічні тому, що робиться з таблицями на випадок надзвичайних ситуацій, більшість літератури про аналіз кореспонденції не входить в теорію розподілу. Документ, що містить таку, можливо, відповідну таку теорію, є http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Також див/stats//search?q=%22chisquare+distance%22 для деяких інших відповідних публікацій на цьому сайті.


Чи можу я запитати, чому ваше останнє рівняння називається відстань чіскадра? Чи поширюється вона як така? Чи можете ви надати, будь ласка, вихід, або посилання на нього? Я не можу знайти його.
Найменші квадратиWonderer

1
Дивіться мої зміни вище.
kjetil b halvorsen

3

Я вважав це посилання дуже корисним: http://docs.opencv.org/2.4/doc/tutorials/imgproc/histograms/histogram_comppare/histogram_comppare.html

Я не зовсім впевнений, чому, але OpenCV використовує 3-ту формулу, яку ви перераховуєте, для порівняння гістограми Chi-Square.

З точки зору сенсу, я не впевнений, що будь-який алгоритм вимірювання дасть вам обмежений діапазон, наприклад від 0% до 100%. Іншими словами, ви можете точно сказати, що два зображення однакові: значення кореляції 1,0 або значення хі-квадрата 0,0; але важко встановити обмеження на те, наскільки різні зображення мають два: уявіть, порівнюючи абсолютно біле зображення з цілком чорним зображенням, числове значення буде нескінченним чи, можливо, Не-числом.


2

ху

Інші два використовуються для обчислення подібності гістограми.


1
$x$x

2
xy

0

Як вимагає ОП, значення у відсотках (для рівняння 1):

p=χS100N

pχNS

Доповнено за запитом:

Обчисливши це рівняння, можна мати відсоток різниці від повної гістограми. Розрахувавши це для обох гістограм, а потім віднявши одну від іншої, можна мати різницю у відсотках.


2
Мені важко бачити, як це відповідь на будь-яке питання. Чи можете ви докладно?
Лаконічний

Це дасть (у відсотках, якщо вимагається), наскільки одна гістограма відрізняється від повної гістограми. Якщо обчислити це рівняння з обох гістограм, ми будемо знати різницю між іншою, оскільки це використовується для тріангуляції.
Карлос Барселос
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.