Використання тесту на статистичну значимість для перевірки результатів кластерного аналізу


13

Я опитую використання тестування статистичної значущості (SST) для перевірки результатів кластерного аналізу. Я знайшов кілька робіт навколо цієї теми, таких як

  • " Статистичні ознаки кластеризації кластеризації для даних високого розміру та малих вибірок " від Liu, Yufeng et al. (2008 р.)
  • " Про деякі тести на значимість у кластерному аналізі ", Бок (1985)

Але мені цікаво знайти деяку літературу, яка стверджує, що SST НЕ підходить для перевірки результатів кластерного аналізу. Єдине джерело, яке я знайшов, що стверджує, що це веб-сторінка постачальника програмного забезпечення

Для уточнення:

Мені цікаво перевірити, чи була виявлена ​​значна структура кластеру в результаті кластерного аналізу, тож я хотів би знати документи, які підтверджують або спростовують занепокоєння "про можливість післяопераційного тестування результатів пошукових даних аналіз, який використовується для пошуку кластерів ".

Щойно я знайшов документ з 2003 року " Методи кластеризації та класифікації " Міллігана та Гіртеля, в якому говорили, наприклад, що використання ANOVA було б недійсним аналізом, оскільки дані не мають випадкових призначень для груп.


Це хороше запитання, але, можливо, варто зазначити, що воно сформульоване так, що здається, що існує дихотомія: або ви можете перевірити важливість кластеризації, або не можете. Однак ситуація інша, тому що "кластерний аналіз" означає різні речі. У довідкових роботах основна увага приділяється тестуванню, чи є докази кластеризації. У посібнику з програмного забезпечення справедливо висловлюється стурбованість можливістю післяопераційного тестування результатів дослідницького аналізу даних, що використовуються для пошуку кластерів. Тут немає суперечності.
whuber

Дякую за відповідь. Ви маєте рацію щодо того, як я поставив запитання. Мене цікавить тестування того, чи була виявлена ​​значна структура кластеру в результаті кластерного аналізу, тому я хотів би знати документи, які підтверджують або спростовують занепокоєння "про можливість післяопераційного тестування результатів пошукових даних аналіз, який використовується для пошуку кластерів ". Щойно я знайшов статтю з 2003 року "Методи кластеризації та класифікації" Міллігана та Гіртеля, в якій говорилося, наприклад, що використання ANOVA було б недійсним аналізом, оскільки дані не мають випадкових віднесень до груп.
DPS

Можлива допомога: Осліплена наукою: управлінські наслідки неадекватно перевірених рішень кластерного аналізу, mrs.org.uk/ijmr_article/article/78841
rolando2

Відповіді:


3

Досить очевидно, що ви не можете (наївно) перевірити різницю розподілів для груп, які були визначені за допомогою одних і тих же даних. Це відомо як "вибіркове тестування", "подвійне занурення", "круговий висновок" тощо.

Прикладом може бути тест на висоту "високих" та "коротких" людей у ​​ваших даних. Нульова (майже) завжди буде відхилена.

Сказавши це, можна дійсно враховувати етап кластеризації на етапі тестування. Мені ж незнайомі конкретні посилання, які це роблять, але я підозрюю, що це потрібно було зробити.


Я згоден з тим, що нуль майже завжди буде відхилено при застосуванні тесту на значимість для різних груп кластерів. Хоча - це має бути лише в тому випадку, якщо кластеризації насправді вдалося добре розділити групи для всіх змінних, що розглядаються в ЦЗ? Чи не можна було б використати тест значущості, щоб визначити, чи є змінні, які добре не розділені між групами (значить, застосувати тест для кожної змінної)? Не могли б ви детальніше розглянути статистичну причину, чому це не рекомендується / розумне?
luke

Формальний аргумент полягає в тому, що термін помилки кожного вимірювання не орієнтований на нуль. Подумайте про мій високий / короткий приклад: усі люди походять із одного розподілу, але у групи "високих" є помилки з позитивною середньою, а "короткою" - з негативною.
JohnRos

0

Замість тестування гіпотез із заданим тестом я рекомендую засоби завантаження або інші зведені оцінки між кластерами. Наприклад, ви можете розраховувати на відсотковий завантажувальний пристрій щонайменше з 1000 зразків. Ключовий момент - застосувати кластеризацію незалежно до кожного зразка завантажувальної програми.

Такий підхід був би досить надійним, надав би докази відмінностей та підтримував Ваші твердження про значну різницю між кластером. Крім того, ви можете створити іншу змінну (скажімо, різниця між кластером), і оцінка завантажувальної змінної такої змінної різниці буде подібною до формального тесту гіпотези.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.