Чи потрібні середня нормалізація та масштабування функцій для кластеризації k-засобів?


Відповіді:


63

Якщо ваші змінні є незрівнянними одиницями (наприклад, висота в см і вага в кг), то, звичайно, слід стандартизувати змінні. Навіть якщо змінні є одними і тими ж одиницями, але показують зовсім інші відхилення, все-таки хороша ідея стандартизуватись перед K-засобами. Розумієте, кластеризація K-засобів "ізотропна" у всіх напрямках простору і тому має тенденцію створювати більш-менш круглі (а не подовжені) кластери. У цій ситуації залишення дисперсій неоднаковим є рівнозначним надаванню більшої ваги змінним з меншою дисперсією, тому кластери, як правило, будуть розділені вздовж змінних з більшою дисперсією.

введіть тут опис зображення

1

Ось декілька загальних міркувань щодо питання стандартизації функцій кластерного чи іншого багатовимірного аналізу.


1


2
Рандомізація, повторний запуск, усереднення та фінальний пробіг - дуже хороша порада. Спасибі
pedrosaurio

1
Як k-засоби чутливі до замовлення?
SmallChess

1
@StudentT, я додав виноску до цього. Дякую.
ttnphns

1
@ttnphns як кількісно визначити, що змінні мають "зовсім інші відхилення"?
Зуб Герман

1
@camillejr, почніть, перевіривши цей Q: stats.stackexchange.com/q/418427/3277 .
ttnphns

4

Я думаю, залежить від ваших даних. Якщо ви хочете, щоб тенденції ваших даних згуртовувалися разом незалежно від масштабу, вам слід зосередитись. напр. скажімо, у вас є певний профіль експресії генів, і ви хочете бачити тенденції в експресії генів, тоді без середнього центрування ваші гени з низькою експресією будуть кластеризуватися разом і віддалятися від генів високої експресії, незалежно від тенденцій. Центрирування створює гени (як високі, так і низько виражені) з схожими моделями експресії.


Я фактично порівнюю різні функції, які мають свій масштаб. Наприклад, я порівнюю вміст GC, який має діапазон приблизно від 0,3 до 0,5, що може здатися невеликим, але різниця є досить важливою; деякі інші особливості мають ширший діапазон, інші - в дуже малих масштабах.
pedrosaurio

Отже, ви кластеризуєте різні фактори? Може, можливо, використовувати деяку вагу або перетворення значень.
Нічний автор

Ні, я порівнюю всі постійні змінні
pedrosaurio
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.