Як перевірити, чи вибирають два багатовимірні розподіли від однієї базової сукупності?


13

Скажімо, вам дано два багатовимірні набори даних, скажімо, старий та новий, і що вони, як передбачається, були створені тим самим процесом (для якого у вас немає моделі), але, можливо, десь уздовж лінії збирання / створення дані, щось пішло не так. Ви не хочете використовувати нові дані як, скажімо, набір перевірки для старих даних або додавати до старих даних.

Ви можете зробити купу 1-денної статистики (за змінну), наприклад, суму рейтингу Wilcoxon, і спробувати кілька разів виправити тест, але я не впевнений, що це оптимально (щоб зафіксувати тонкощі багатоваріантних даних, не кажучи вже про багатопробні питання). Один із способів - використовувати класифікатор і перевірити, чи можна розрізняти два набори даних (з огляду на оптимальний класифікатор, який є оптимальним). Це, здається, працює, але все-таки a) perhpas є кращим способом b) Це насправді не розроблено, щоб сказати вам, чому це інше (якщо нічого іншого, він використовуватиме найкращі прогнози і, можливо, пропустить інших хороших прогнозів, які були піддані кращим)

Відповіді:


3
http://131.95.113.139/courses/multivariate/mantel.pdf

Обговоріть два можливі способи зробити це так, якщо ваші набори даних однакового розміру. Основний підхід - обчислити метрику відстані між вашими двома спостережуваними матрицями. Потім, щоб визначити, чи значна ця відстань, ви використовуєте тест на перестановку .

Якщо ваші набори даних не однакового розміру, ви можете використовувати тест перехресного відповідності, хоча він не дуже популярний. Замість тесту на перехресну відповідність ви можете спробувати вибірки даних вгору або вниз, щоб вони були однакового розміру, використовуючи один із підходів, зазначених у першій статті.


Ви згадуєте, якщо у нас набори даних нерівномірного розміру, використовуйте тест перехресного відповідності. Однак слідуючи згаданому вами документу, вони використовують однакові рівні набори даних і розглядають пару на основі відстаней. Ви знайшли якісь докази використання цього? навіть у примітках до випуску для перехресного матчу приклад використовує рівні набори даних
lukeg

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.