Які найкращі (рекомендовані) етапи попередньої обробки перед виконанням k-засобів?
Які найкращі (рекомендовані) етапи попередньої обробки перед виконанням k-засобів?
Відповіді:
Якщо ваші змінні є незрівнянними одиницями (наприклад, висота в см і вага в кг), то, звичайно, слід стандартизувати змінні. Навіть якщо змінні є одними і тими ж одиницями, але показують зовсім інші відхилення, все-таки хороша ідея стандартизуватись перед K-засобами. Розумієте, кластеризація K-засобів "ізотропна" у всіх напрямках простору і тому має тенденцію створювати більш-менш круглі (а не подовжені) кластери. У цій ситуації залишення дисперсій неоднаковим є рівнозначним надаванню більшої ваги змінним з меншою дисперсією, тому кластери, як правило, будуть розділені вздовж змінних з більшою дисперсією.
Ось декілька загальних міркувань щодо питання стандартизації функцій кластерного чи іншого багатовимірного аналізу.
Я думаю, залежить від ваших даних. Якщо ви хочете, щоб тенденції ваших даних згуртовувалися разом незалежно від масштабу, вам слід зосередитись. напр. скажімо, у вас є певний профіль експресії генів, і ви хочете бачити тенденції в експресії генів, тоді без середнього центрування ваші гени з низькою експресією будуть кластеризуватися разом і віддалятися від генів високої експресії, незалежно від тенденцій. Центрирування створює гени (як високі, так і низько виражені) з схожими моделями експресії.