Скажімо, у мене є дві або більше вибіркових сукупностей n-мірних векторів безперервного значення. Чи є непараметричний спосіб перевірити, чи є ці зразки з одного розподілу? Якщо так, чи є для цього функція в R або python?
Скажімо, у мене є дві або більше вибіркових сукупностей n-мірних векторів безперервного значення. Чи є непараметричний спосіб перевірити, чи є ці зразки з одного розподілу? Якщо так, чи є для цього функція в R або python?
Відповіді:
Я просто зробив багато досліджень багатоваріантних двох вибіркових тестів, коли зрозумів, що тест Колмогорова-Смірнова не є багатоваріантним. Тож я переглянув тест Chi, Критер Хотеллінга T ^ 2, критерій Андерсона-Дарлінга, Кремера-фон Мізеса, Шапіро-Вілка та ін. довжина. Інші використовуються лише для відкидання припущення про нормальність, а не для порівняння двох вибіркових розподілів.
Провідне рішення, здається, порівнює дві функції кумулятивного розподілу двох зразків з усіма можливими впорядкуваннями, які, як ви можете підозрювати, є дуже обчислювально інтенсивними, за порядком хвилин для одного запуску вибірки, що містить кілька тисяч записів:
https://cran.r-project.org/web/packages/Peacock.test/Peacock.test.pdf
Як зазначається в документації Сяо, тест Фасано і Франческані є варіантом тесту на Павич:
http://adsabs.harvard.edu/abs/1987MNRAS.225..155F
Тест Фасано та Франческані був призначений для менш обчислювальної інтенсивності, але я не знайшов реалізації своєї роботи в Р.
Для тих із вас, хто хоче вивчити обчислювальні аспекти тесту Павич проти Фасано та Франсініні, ознайомтеся з обчислювально ефективними алгоритмами двовимірного тесту Колмогорова – Смірнова
R пакет np (непараметричний) має тест на рівність щільності неперервних і категоричних даних, використовуючи інтегровану квадратну щільність. Лі, Маасумі та Расін (2009)
А також np умовний pdf у розділі 6 .
Так, існують непараметричні способи тестування, якщо два багатоваріантні зразки з одного і того ж спільного розподілу. Я згадаю деталі, виключаючи ті, про які згадував Л. Фішман . Основну проблему, про яку ви ставите, можна назвати «двопробною проблемою», і зараз у наукових журналах, таких як Journal of Machine Learning Research і Annals of Statistics та інших, триває велика кількість досліджень . Маючи малі знання з цієї проблеми, я можу дати наступне керівництво
Якщо ваш інтерес полягає в порівнянні різних точкових наборів (вибіркових наборів) з набором опорних точок, щоб побачити, наскільки тісно вони наближають набір опорних точок, ви можете використовувати f-дивергенцію .
Можуть бути й інші способи підходу, ця відповідь аж ніяк не є всебічною обробкою вашого питання;)