Як слід інтерпретувати статистику GAP?


10

Я використовував статистику GAP для оцінки k кластерів у Р. Однак я не впевнений, чи правильно її інтерпретую. введіть тут опис зображення

З наведеного сюжету я припускаю, що мені слід використовувати 3 кластери.

введіть тут опис зображення

З другого сюжету я повинен вибрати 6 кластерів. Чи правильно трактувати статистику GAP?

Буду вдячний за будь-яке пояснення.


Два питання - Що показує перший сюжет? Це статистика GAP для тих самих даних? Чому б це виглядало інакше, ніж друге (яке я бачу як GAP). Які функції R ви використовували? Друге питання: чи використовували ви правило "1-стандартна помилка", щоб вибрати 6 для другого сюжету?
Deathkill14

Отже, існує два різних підходи до кластеризації. Перший на основі часових рядів - продажі протягом 26 тижнів, і я згрупував дані на основі динамічної деформації часу. Другий підхід полягав у формуванні параметрів кривої зростання кластера, що також базується на динамічній деформації часу. Я використовував clusGapна основі globalmax, я не знав, як реалізувати maxSE.
петерпетер

Відповіді:


11

Щоб отримати ідеальну кластеризацію, слід вибрати таку, щоб максимально збільшити статистику розриву. Ось приклад, наведений Tibshirani et al. (2001) у своїй роботі сюжет, утворений штучними даними з 2 кластерами. Як бачимо, 2 явно є ідеальним , оскільки статистика розриву максимізована при :kkk=2

Статистика прогалин

Однак у багатьох реальних наборах даних кластери не настільки чітко визначені, і ми хочемо мати можливість збалансувати максимізацію статистики розриву з посидючості моделі. Справа в точці: перше зображення ОП. Якщо ми максимізуючи розрив статистики в поодинці , то ми повинні вибрати модель з 30 (або навіть більше!) Кластерів. Якщо припустити, що цей сюжет просто збільшиться, звичайно, результати є менш корисними. Тож Тібшірані пропонує 1-стандартний метод помилок :

Виберіть розмір кластера щоб бути найменшим таким, що .к^кРозрив(к)Розрив(к+1)-ск+1

Що неофіційно визначає момент, коли швидкість збільшення статистики розриву починає "сповільнюватися".

Отже, на першому зображенні ОП, якщо ми вважаємо червоні смуги помилок стандартними помилками, то 3 - найменший який відповідає цьому критерію:к

Анотоване зображення 1

Однак для другого зображення ОП ви побачите, що статистика розриву відразу зменшується для . Отже, перший що задовольняє критерію 1-стандартної помилки, дорівнює . Це спосіб сюжету сказати, що дані не повинні кластеризуватися.к>1к1

Як виявляється, існують додаткові способи вибору оптимального . Наприклад, метод R за замовчуванням , наприклад, завжди шукає локальний максимум графіка і вибирає найменший в межах однієї стандартної помилки локального макс. Використовуючи цей метод, ми вибрали б та для графіків 1 та 2 ОП відповідно. Як я вже сказав, це, мабуть, страждає від проблеми складності.кclusGapкfirstSEmaxк=30к=19

Джерело: Роберт Тібширані, Гюнтер Уолтер та Тревор Хасті (2001). Оцінка кількості кластерів у наборі даних за допомогою статистики розриву.


1
Оцінюючи значення за статистикою розриву, як я можу обчислити / оцінити ймовірність того, що - справжня кількість кластерів? Або моє питання безглуздо? кк
Quant_dev

Дякуємо за вказівку на компроміс між максимальним збільшенням статистики розриву та отримання
парсифікації
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.