Як слід інтерпретувати статистику GAP?

Я використовував статистику GAP для оцінки k кластерів у Р. Однак я не впевнений, чи правильно її інтерпретую. введіть тут опис зображення

З наведеного сюжету я припускаю, що мені слід використовувати 3 кластери.

введіть тут опис зображення

З другого сюжету я повинен вибрати 6 кластерів. Чи правильно трактувати статистику GAP?

Буду вдячний за будь-яке пояснення.

clustering

— петерпетер
джерело

Два питання - Що показує перший сюжет? Це статистика GAP для тих самих даних? Чому б це виглядало інакше, ніж друге (яке я бачу як GAP). Які функції R ви використовували? Друге питання: чи використовували ви правило "1-стандартна помилка", щоб вибрати 6 для другого сюжету?

— Deathkill14

Отже, існує два різних підходи до кластеризації. Перший на основі часових рядів - продажі протягом 26 тижнів, і я згрупував дані на основі динамічної деформації часу. Другий підхід полягав у формуванні параметрів кривої зростання кластера, що також базується на динамічній деформації часу. Я використовував clusGapна основі globalmax, я не знав, як реалізувати maxSE.

— петерпетер

Щоб отримати ідеальну кластеризацію, слід вибрати таку, щоб максимально збільшити статистику розриву. Ось приклад, наведений Tibshirani et al. (2001) у своїй роботі сюжет, утворений штучними даними з 2 кластерами. Як бачимо, 2 явно є ідеальним , оскільки статистика розриву максимізована при : $k$ $k$ $k=2$

Однак у багатьох реальних наборах даних кластери не настільки чітко визначені, і ми хочемо мати можливість збалансувати максимізацію статистики розриву з посидючості моделі. Справа в точці: перше зображення ОП. Якщо ми максимізуючи розрив статистики в поодинці , то ми повинні вибрати модель з 30 (або навіть більше!) Кластерів. Якщо припустити, що цей сюжет просто збільшиться, звичайно, результати є менш корисними. Тож Тібшірані пропонує 1-стандартний метод помилок :

Виберіть розмір кластера щоб бути найменшим таким, що . $\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$

Що неофіційно визначає момент, коли швидкість збільшення статистики розриву починає "сповільнюватися".

Отже, на першому зображенні ОП, якщо ми вважаємо червоні смуги помилок стандартними помилками, то 3 - найменший який відповідає цьому критерію: $k$

Однак для другого зображення ОП ви побачите, що статистика розриву відразу зменшується для . Отже, перший що задовольняє критерію 1-стандартної помилки, дорівнює . Це спосіб сюжету сказати, що дані не повинні кластеризуватися. $k > 1$ $k$ $1$

Як виявляється, існують додаткові способи вибору оптимального . Наприклад, метод R за замовчуванням , наприклад, завжди шукає локальний максимум графіка і вибирає найменший в межах однієї стандартної помилки локального макс. Використовуючи цей метод, ми вибрали б та для графіків 1 та 2 ОП відповідно. Як я вже сказав, це, мабуть, страждає від проблеми складності. $k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$

Джерело: Роберт Тібширані, Гюнтер Уолтер та Тревор Хасті (2001). Оцінка кількості кластерів у наборі даних за допомогою статистики розриву.

— яєльма
джерело

Оцінюючи значення за статистикою розриву, як я можу обчислити / оцінити ймовірність того, що - справжня кількість кластерів? Або моє питання безглуздо?

k

$k$

k

$k$

— Quant_dev

Дякуємо за вказівку на компроміс між максимальним збільшенням статистики розриву та отримання

— парсифікації