Мотивація відстані між розподілами Колмогорова


45

Існує багато способів оцінити, наскільки схожі два розподіли ймовірності. Серед популярних (у різних колах) методів є:

  1. відстань Колмогорова: відстань відстані між функціями розподілу;

  2. відстань Кантаровича-Рубінштейна: максимальна різниця очікувань двох розподілів функцій з постійною Ліпшица , яка також виявляється відстань між розподільними функціями;1L1

  3. обмежена відстань Ліпшиця: як і відстань KR, але функції також повинні мати абсолютне значення не більше .1

Вони мають різні переваги та недоліки. Тільки конвергенція у значенні 3. насправді точно відповідає конвергенції в розподілі; конвергенція в значенні 1. або 2. трохи сильніше загалом. (Зокрема, якщо з ймовірністю , то до в розподілі, але не на відстані Колмогорова. Однак, якщо граничний розподіл є безперервним, ця патологія не виникає. )Хн=1н1Хн0

З точки зору елементарної теорії ймовірностей або мір 1., це дуже природно, оскільки порівнює ймовірність перебування в деякій множині. З іншого боку, більш досконала імовірнісна перспектива має більше уваги, ніж очікування, ніж ймовірності. Також, з точки зору функціонального аналізу, відстані на зразок 2 або 3, засновані на подвійності з деяким функціональним простором, дуже привабливі, оскільки існує великий набір математичних інструментів для роботи з такими речами.

Однак моє враження (виправте мене, якщо я помиляюся!) Полягає в тому, що в статистиці відстань Колмогорова - це зазвичай бажаний спосіб вимірювання подібності розподілів. Я можу здогадатися про одну причину: якщо один з розподілів дискретний з кінцевою підтримкою - зокрема, якщо це розподіл якихось реальних даних - то відстань Колмогорова до модельного розподілу легко обчислити. (Відстань KR було б трохи важче обчислити, а відстань BL, ймовірно, неможливо на практиці.)

Отже, моє запитання (нарешті) полягає в тому, чи існують інші причини, чи то практичні, чи теоретичні, щоб надавати перевагу відстані Колмогорова (чи якусь іншу відстань) для статистичних цілей?


1
Мені подобається запитання, можливо, вже є більшість можливих відповідей на питання ... чи маєте ви уявлення про тип відповіді / розвитку, який ви хочете?
Робін Жирард

1
Не дуже конкретно. Я зовсім не знаю статистики, і одна з моїх причин запитати - дізнатися, які критерії статистики використовуватимуть для вибору між різними показниками. Оскільки я вже описав одну важливу практичну перевагу 1 (ви насправді можете це обчислити), мене особливо цікавлять теоретичні мотивації. Скажіть, чи часто інформація, що надається оцінками відстані Колмогорова, безпосередньо використовується у додатках?
Марк Меккес

Я забув закінчити свій попередній коментар більш-менш очевидним: і якщо так, то як?
Марк Меккес

Я просто перечитав свій довгий коментар вище і зрозумів, що останнє питання, яке я порушив, є настільки ж практичним, як теоретичним. У будь-якому випадку, це один із видів питань, про які я хотів би дізнатися.
Марк Меккес

Я знаю, що ви не мали намір бути вичерпним, але ви можете додати статистику улюблення Андерсона (див. En.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Це змусило мене нагадати паперу fromo Jager і Wellner (див projecteuclid.org / ... ) , який extands / Андерсон узагальнює улюбленець статистику (і включає в себе , зокрема , більш високою критиці Тьюки) ...
робін Girard

Відповіді:


12

Позначити,

головна причина, яку мені відомо про використання КС, полягає в тому, що вона природно виникає з теорем Глівенко-Кантеллі в одномірних емпіричних процесах. Одним із посилань, який я рекомендував би, є AWvan der Vaart "Асимптотична статистика", гл. 19. Більш досконала монографія - "Слабка конвергенція та емпіричні процеси" Велнера та ван дер Ваарта.

Додаю дві швидкі нотатки:

  1. інша міра відстані, яка зазвичай використовується в одновимірних розподілах, - це відстань Крамера-фон Мізеса, яка є відстань L ^ 2;
  2. в загальних векторних просторах використовуються різні відстані; простір інтересів у багатьох працях - польський. Дуже вдалим вступом є "Зближення ймовірних заходів" Біллінгслі.

Прошу вибачення, якщо не можу бути більш конкретним. Я сподіваюся, що це допомагає.


2
Дві швидкі нотатки до ваших нотаток. 1. Відстань C-vM - це саме L ^ 2 двоюрідний брат Колмогорова (L ^ нескінченності) та (однофакторний) KR (L ^ 1) відстань, а отже, інтерполятор між ними. 2. Однією з переваг, про які я не згадував про відстані KR та BL, є те, що вони більш природним чином узагальнюють великі розмірні простори.
Марк Меккес

Щодо 1., це правильно. Щодо 2. В принципі всі вищезазначені відстані могли переноситися на R ^ n, однак я не знаю популярних непараметричних тестів на основі будь-якої відстані. Було б цікаво дізнатися, чи є такі.
гаппі

8

Обчислювальні питання - це найсильніший аргумент, який я чув так чи інакше. Найбільшою перевагою відстані Колмогорова є те, що дуже просто аналізувати аналітично майже будь-яку СДВ. Більшість інших показників відстані не мають виразу закритої форми, за винятком випадків, у випадку Гаусса.

Відстань Колмогорова від зразка також має відомий розподіл вибірки з огляду на CDF (я не думаю, що це робить більшість інших), що в підсумку пов'язане з процесом Вінера. Це основа для тесту Колмогорова-Смірноффа для порівняння вибірки з розподілом або двох зразків один до одного.

Щодо функціонально-аналітичної записки, норма суп є приємною тим, що (як ви вже згадуєте) вона в основному визначає рівномірне зближення. Це залишає вам нормальну конвергенцію, що передбачає точку зближення, і тому ви, якщо ви розумні щодо того, як ви визначаєте послідовності своїх функцій, можете працювати в RKHS і використовувати всі приємні інструменти, які також надає.


8

Як підсумок , моя відповідь: якщо ви маєте чіткий вираз або можете зрозуміти, яким чином вимірюється ваша відстань (які «відмінності» він дає вагу), то ви можете сказати, для чого це краще. Іншим додатковим способом аналізу та порівняння такого тесту є теорія мінімакс.

Зрештою, деякі тести будуть корисні для деяких альтернатив, а деякі для інших. Для даного набору альтернатив іноді можна показати, чи має ваш тест оптимальне властивість у гіршому випадку: це теорія мінімаксу.


Деякі деталі

Отже, ви можете розповісти про властивості двох різних тестів, розглядаючи набір альтернативних варіантів, для яких вони є minimax (якщо така альтернатива існує), тобто (використовуючи слово Донохо та Джина), порівнюючи їх "оптимальний буфер виявлення" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Дозвольте мені пройти відстань на відстань:

  1. Відстань KS отримується, обчислюючи супрему різниці між емпіричним cdf та cdf. Будучи супремумом, він буде дуже чутливий до локальних альтернатив (локальна зміна в cdf), але не до глобальних змін (принаймні використання відстані L2 між cdf було б менш локальним (чи я відкриваю відкриті двері?)). Однак, найважливіше - це використання cdf. Це передбачає асиметрію: ви надаєте більшого значення змінам у хвості розподілу.

  2. Метрика Васертейна (що ви мали на увазі під Канторовичем Рубінштейном?) Http://en.wikipedia.org/wiki/Wasserstein_metric є всюдисущим і тому важко порівняти.

    • Для конкретного випадку W2 він використовувався в http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 і пов'язаний з відстані L2 до зворотного cdf. Я розумію, що це надає ще більшої ваги хвостикам, але я думаю, ви повинні прочитати статтю, щоб дізнатися про неї більше.
    • Для випадку відстані L1 між функцією щільності це буде дуже залежати від того, як ви оціните свою функцію зубності за даними ... але в іншому випадку це здається "збалансованим тестом", що не надає значення хвостикам.

Щоб згадати та розширити коментар, який я зробив:

Я знаю, що ви не мали намір бути вичерпним, але ви можете додати статистику улюблення Андерсона (див. Http://en.wikipedia.org/wiki/Anderson%E2%80%93Darling_test ). Це змусило мене нагадати документ від Jager and Wellner (див. Http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ), який розширює / узагальнює статистику про дорогоцінність Андерсона (і зокрема включає вища критика Тукі). Вища критика вже була показана як мінімакс для широкого спектру альтернатив, і те саме зробили Джагер та Велнер для їхнього розширення. Я не думаю, що властивість minimax було показано для тесту Колмогорова. У будь-якому випадку, розуміння того, для якого типу альтернативи ваш тест є minimax, допомагає вам знати, де його сила, тому ви повинні прочитати документ вище.


1
Так, те, що я назвав відстань Кантарович-Рубінштейн, також називається відстань L ^ 1 Вассерстейн або W1. Це стосується і багатьох інших імен.
Марк Меккес

3
Просто для уточнення для тих, хто незнайомий з відстанями Вассерстейна, хто читає це, і гаптова відповідь: відстань L ^ 2 Wasserstein (W2) не є такою ж, як відстань Крамера-фон Мізеса.
Марк Меккес

4

ЖЖ

ЖЖ^

супх|Жн(х)-Ж^(х)|.
Ж^Ж^=Ж

3

Я не можу дати вам додаткових причин використовувати тест Колмогорова-Смірнова. Але я можу дати вам важливу причину не використовувати його. Він не добре підходить до хвоста розподілу. У зв'язку з цим, вигідний тест на придатність розподілу - Андерсон-Дарлінг. В якості другого найкращого, тест Chi Square є досить хорошим. У цьому плані обидва вважаються значно перевершеними тестом KS.


2

Lp

L0

Коротше кажучи, однакова норма відстані вибору 1 є кращою, оскільки тест, який вона передбачає, еквівалентний задачі про час зупинки, яка сама виробляє обчислювані ймовірності, обчислювані. Де як варіанти 2 та 3 не можуть визначати вимірювані підмножини функцій.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.