Відповідність ANOVA після кластерного аналізу k-означає

Повідомлення після таблиці ANOVA після аналізу K-засобів вказує на те, що рівні значущості не слід розглядати як випробування рівних засобів, оскільки рішення кластера було отримано на основі евклідової відстані для максимального відстані. Який тест слід використати, щоб показати, чи відрізняються засоби кластерних змінних між кластерами? Я бачив це застереження в таблицях ANOVA, наданих k-засобами, але в деяких посиланнях я бачу, що виконуються пост-спеціальні тести ANOVA. Чи слід ігнорувати k-середні виходи ANOVA та запускати односторонні ANOVA за допомогою post-hoc тестів та інтерпретувати їх традиційним способом? Або я можу лише мати на увазі величину значення F і які змінні сприяли різниці? Інша плутанина полягає в тому, що кластерні змінні зазвичай не розподіляються, що порушує припущення про ANOVA, тоді я міг би використовувати непараметричний тест Крускала-Уолліса, але він має припущення про однакові розподіли. Міжкластерні розподіли для конкретних змінних не виглядають однаковими, деякі позитивно перекошені, деякі негативно… У мене 1275 великих вибірки, 5 кластерів, 10 кластерних змінних, виміряних у балах PCA.

anova k-means

— Інга
джерело

Для чого потрібно перевірити рівність засобів? Ви не можете просто перевірити, як ваша модель працює зразка?

— Джеймс

Я хотів визначити, які значення змінних відрізняються між кластерами, тобто, чи відрізняється середнє значення v1 в cluster1 від середнього v1 в кластері, 2, 3, 4, 5. Я, звичайно, можу побачити, що, роблячи графік, але це не розповідати про статистичну різницю. Тест на статистичну різницю мене збентежив, оскільки для ANOVA мої дані не відповідали нормальному припущенню щодо розподілу, але для тесту Крускала Уолліса те саме припущення щодо розподілу форми серед кластерних груп.

— Інга

Як @James зазначив у своїй відповіді, ви "сопіте". Що може бути приводом для перевірки значущості між групами, які ви (ваш кластер) обрали, щоб максимально відрізнятися? Тут немає жодної ознаки випадкової чи пропорційної вибірки з популяцій, які були б чіткими на основі деяких зовнішніх , грубих характеристик.

— ttnphns

Дякую за відповіді! Моя плутанина з'явилася, як у деяких джерелах. Я бачу, що порівняння середніх статистичних даних не є доцільним у цій ситуації, як ви також вказали, але, наприклад, цитата з 1-ї глави книги вказує на протилежне: "ми зазвичай вивчаємо засоби для кожного кластеру в кожному вимірі за допомогою ANOVA щоб оцінити, наскільки наші кластери відрізняються. В ідеалі ми отримали б значно різні засоби для більшості, якщо не всіх розмірів, що використовуються в аналізі. Величина значень F, виконаних у кожному вимірі, є вказівкою на те, наскільки добре відповідний розмір дискримінує між кластери "

— Інга

Ви маєте право оцінювати відмінності між кластерами за характеристиками, які використовуються для кластеру, - щоб визначити найбільш дискримінаційні. Роблячи це, ви можете обчислити відносні різниці, значення F і навіть p-значення. Як показники розміру ефекту. Не як показники статистичної значущості (які стосуються населення).

— ttnphns

Відповіді:

Ні!

Ви не повинні використовувати однакові дані для 1) виконання кластеризації та 2) пошуку за значними відмінностями між точками кластерів. Навіть якщо в даних немає фактичної структури, кластеризація накладе її, згрупувавши разом точки, які знаходяться поблизу. Це зменшує дисперсію всередині групи і збільшує дисперсію в межах групи, що спрямовує вас на помилкові позитиви.

Цей ефект напрочуд сильний. Ось результати моделювання, які витягують 1000 точок даних із стандартного нормального розподілу. Якщо ми віднесемо бали до однієї з п’яти груп навмання перед тим, як запустити ANOVA, ми виявимо, що р-значення розподілені рівномірно: 5% прогонів є значущими на рівні (некоректований) 0,05, 1% на рівні 0,01, Іншими словами, ефекту немає. Однак, якщо використовують для кластеризації даних у 5 груп, ми виявляємо суттєвий ефект практично кожного разу, хоча дані не мають фактичної структури . $k$

Результати моделювання, що показують рівномірний розподіл значень для випадкових призначень та сильно перекошений (майже всі 0,05 або менше) розподіл значень p після кластеризації

Тут немає нічого особливого щодо ANOVA - ви могли б побачити подібні ефекти, використовуючи непараметричні тести, логістичну регресію, будь-що інше. Загалом, перевірка продуктивності алгоритму кластеризації є складною, особливо якщо дані не мають маркування. Однак існує декілька підходів до "внутрішньої перевірки" або вимірювання якості кластерів без використання зовнішніх джерел даних. Як правило, вони зосереджені на компактності та відокремленості кластерів. Цей огляд Lui et al. (2010) може бути хорошим місцем для початку.

— Метт Краузе
джерело

Ваша справжня проблема - це прослуховування даних. Ви не можете застосувати ANOVA або KW, якщо спостереження були призначені групам (кластерам) на основі самого набору вхідних даних. Що ви можете зробити, це використовувати щось на зразок статистики Gap для оцінки кількості кластерів.

З іншого боку, накладені p-значення зміщуються вниз, тому якщо результат тесту ANOVA або KW незначний, то "справжнє" p-значення ще більше, і ви можете вирішити об'єднати кластери.

— Джеймс
джерело

Я думаю, ви можете застосувати такий підхід (тобто, використовуючи статистику, таку як F-статистика або t-статистика чи будь-що інше), якщо ви викинете звичайні нульові розподіли .

Що вам потрібно зробити, це імітувати ситуацію, в якій ваш нуль відповідає істині, застосуйте всю процедуру (кластеризацію тощо), а потім щоразу обчислюйте будь-яку статистику. Застосовуючи в багатьох моделюваннях, ви отримаєте розподіл для статистики під нулем, з яким можна порівняти ваше значення вибірки. Включаючи перегляд даних у розрахунок, ви враховуєте його ефект.

[Альтернативно, можна, можливо, розробити тест на основі перестановки (чи то на основі перестановки / рандомізації чи завантаження).]

— Glen_b -Встановити Моніку
джерело

Правильно, це ідея, що стоїть за статистикою Gap.

— Джеймс