@Silverfish попросив розширити відповідь від PolatAlemdar, яка не була надана, тому я спробую розширити цю проблему тут.
Чому назва чіскедра відстань? Тест чісквара для таблиць на випадок надзвичайних ситуацій заснований на
так ідеящоб зберегти цю форму і використовувати йогоякості міри відстані. Це дає третю формулу ОП, зxiінтерпретується як спостереження, аyi -як очікування, що пояснює коментар ПолатАлемдара "Використовується в дискретних розподілах ймовірностей", як, наприклад, у справі тесту на придатність. Ця третя форманеє функцією відстані, оскільки вона асиметрична в зміннихxіy. Для порівняння гістограми нам потрібна функція відстані, симетрична вxіy, і дві перші форми дають це. Різниця між ними - лише постійний коефіцієнт1
χ2=∑cells(Oi−Ei)2Ei
xiyixyxy , що неважливо, якщо ви просто послідовно вибираєте одну форму (хоча версія з додатковим фактором
112 краще, якщо ви хочете порівняти з асиметричною формою). Зауважимо подібність у цих формулах із квадратом евклідової відстані, тобто не випадковість, відстань чіскадра - це свого роду
зваженаевклідова відстань. З цієї причини формули в ОП зазвичай ставлять під кореневим знаком, щоб отримати
відстань. Далі ми слідуємо за цим.
12
Відстань на чіскверті використовується також у кореспондентському аналізі. Щоб побачити співвідношення до використовуваної форми, нехай є осередками таблиці непередбачених ситуацій з R рядками та стовпцями C. Позначимо підсумки рядків x + j = ∑ i x i j, а підсумкові стовпці x i + = ∑ j x i j . Відстань між чітками між рядками l , k задається
χ 2 ( l , k ) =xijRCx+j=∑ixijxi+=∑jxijl,k
Для випадку, що містить лише два ряди (дві гістограми), вони відновляють першу формулу ОП (за модулем кореневий знак).
χ2(l,k)=∑j1x+j(xljxl+−xkjxk+)2−−−−−−−−−−−−−−−−−−−⎷
EDIT
Відповідаючи на запитання в коментарях нижче: Книга з довгими дискусіями про відстань чіскарда - "АНАЛІЗ КОРРЕСПОНДЕНЦІЇ В ПРАКТИЦІ (друге видання)" Майкла Грінакре (Chapman & Hall). Це добре відома назва, що походить від її подібності до chisquare як використовується для таблиць на випадок надзвичайних ситуацій. Яке поширення воно має? Я ніколи цього не вивчав, але, ймовірно, (за певних умов ...) це мало б певне розподілення, приблизно. Докази повинні бути аналогічні тому, що робиться з таблицями на випадок надзвичайних ситуацій, більшість літератури про аналіз кореспонденції не входить в теорію розподілу. Документ, що містить таку, можливо, відповідну таку теорію, є http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0101-74382016000100023 . Також див/stats//search?q=%22chisquare+distance%22 для деяких інших відповідних публікацій на цьому сайті.