Перевірте, чи багатовимірні розподіли однакові


15

Скажімо, у мене є дві або більше вибіркових сукупностей n-мірних векторів безперервного значення. Чи є непараметричний спосіб перевірити, чи є ці зразки з одного розподілу? Якщо так, чи є для цього функція в R або python?


2
Тест Колмогорова-Смірнова є типовим непараметричним інструментом для перевірки того, чи є два розподіли однаковими. Мені це не знайоме, але у вікіпедії посилаються на Юстель, А., Пенья, Д. і Замар, Р. (1997) Багатовимірний тест на придатність Колмогорова-Смірнова на придатність, "Статистика і ймовірнісні листи", 35 (3), 251-259 . для багатоваріантного розширення цього тесту.
Макрос

1
Є питання щодо резюме, яке вирішує це у двох вимірах: stats.stackexchange.com/questions/25946/… . Навіть у двох вимірах немає стандартного способу зробити це.
Flounderer

Відповіді:


8

Я просто зробив багато досліджень багатоваріантних двох вибіркових тестів, коли зрозумів, що тест Колмогорова-Смірнова не є багатоваріантним. Тож я переглянув тест Chi, Критер Хотеллінга T ^ 2, критерій Андерсона-Дарлінга, Кремера-фон Мізеса, Шапіро-Вілка та ін. довжина. Інші використовуються лише для відкидання припущення про нормальність, а не для порівняння двох вибіркових розподілів.

Провідне рішення, здається, порівнює дві функції кумулятивного розподілу двох зразків з усіма можливими впорядкуваннями, які, як ви можете підозрювати, є дуже обчислювально інтенсивними, за порядком хвилин для одного запуску вибірки, що містить кілька тисяч записів:

https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf

Як зазначається в документації Сяо, тест Фасано і Франческані є варіантом тесту на Павич:

http://adsabs.harvard.edu/abs/1987MNRAS.225..155F

Тест Фасано та Франческані був призначений для менш обчислювальної інтенсивності, але я не знайшов реалізації своєї роботи в Р.

Для тих із вас, хто хоче вивчити обчислювальні аспекти тесту Павич проти Фасано та Франсініні, ознайомтеся з обчислювально ефективними алгоритмами двовимірного тесту Колмогорова – Смірнова


Що таке кумулятивний розподіл для багатоваріантів?
Аксакал

2
Ж(х,у)=П(Х<х,Y<у)pЖ(х,у)=i=1нЯ(Хi<х,Yi<у)/н

2
Приємно і лаконічно, Адамо. Тест Павича здається дурним, не роблячи обрізки, як це роблять Фасано та Франческані. Будемо сподіватися, що хтось вирішить зашифрувати це один день для R. Це особливо корисно для швидкості, коли у вас додатково розкладені записи, можливо, за допомогою категоричної змінної, і хочете дізнатися, чи справді ваші розклади отримані з різних дистрибутивів.
L Фішман


1

Так, існують непараметричні способи тестування, якщо два багатоваріантні зразки з одного і того ж спільного розподілу. Я згадаю деталі, виключаючи ті, про які згадував Л. Фішман . Основну проблему, про яку ви ставите, можна назвати «двопробною проблемою», і зараз у наукових журналах, таких як Journal of Machine Learning Research і Annals of Statistics та інших, триває велика кількість досліджень . Маючи малі знання з цієї проблеми, я можу дати наступне керівництво

  • Один з останніх способів тестування наборів багатоваріантних зразків - це максимальна середня розбіжність (MMD); супутня література: Артур Греттон 2012 , Бхарат 2010 та інші. Інші споріднені методи можна знайти в цих наукових статтях. Якщо ви зацікавлені, перегляньте статті, що цитують ці статті, щоб отримати широку картину стану сучасності у цій проблемі. І ТАК, для цього є R реалізації.

Якщо ваш інтерес полягає в порівнянні різних точкових наборів (вибіркових наборів) з набором опорних точок, щоб побачити, наскільки тісно вони наближають набір опорних точок, ви можете використовувати f-дивергенцію .

  • Один з популярних особливих випадків цього - дивергенція Куллбека-Лейблера . Це використовується в багатьох режимах машинного навчання. Це знову можна зробити двома np способами; через підхід вікна parzen (ядро) та K-Найближчий сусідній PDF-оцінювач.

Можуть бути й інші способи підходу, ця відповідь аж ніяк не є всебічною обробкою вашого питання;)

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.