Один із способів присвоїти вазі змінній - це зміна її масштабу. Трюк працює для алгоритмів кластеризації, які ви згадуєте, а саме. k-означає, середньозважена зв'язок і середня середня зв'язок.
Кауфман, Леонард та Пітер Дж. Руссо. " Пошук груп у даних: вступ до кластерного аналізу ." (2005) - стор. 11:
Вибір одиниць вимірювання породжує відносні ваги змінних. Вираження змінної у менших одиницях призведе до збільшення діапазону для цієї змінної, що потім матиме великий вплив на отриману структуру. З іншого боку, стандартизуючи спроби надати всім змінним однакову вагу в надії на досягнення об'єктивності. Як такий, він може бути використаний практикуючим лікарем, який не має попередніх знань. Однак, цілком може бути, що деякі змінні за своєю суттю важливіші, ніж інші, у певній програмі, і тоді призначення ваг має базуватися на знаннях про предмет (див., Наприклад, Abrahamowicz, 1985).
З іншого боку, були спроби розробити методи кластеризації, які не залежать від масштабу змінних (Friedman and Rubin, 1967). Пропозиція Харді та Рассона (1982) полягає у пошуку перегородки, яка мінімізує загальний об'єм опуклих корпусів кластерів. В принципі такий метод є інваріантним щодо лінійних перетворень даних, але, на жаль, не існує алгоритму його впровадження (за винятком наближення, яке обмежується двома вимірами). Тому дилема стандартизації видається неминучою в даний час, і програми, описані в цій книзі, залишають вибір на користувачі
Abrahamowicz, M. (1985), Використання нечислової інформації pnon для вимірювання відмінностей, документ, представлений на четвертому Європейському засіданні Психометричного товариства та класифікаційних товариств, 2-5 липня, Кембридж (Великобританія).
Friedman, HP, and Rubin, J. (1967), Про деякі інваріантні критерії групування даних. J. Амер. Статист. ASSOC6., 2, 1159-1178.
Харді, А. і Рассон, JP (1982), Une nouvelle підходять до задач автоматизації класифікації, Statist. Анальний. Донні, 7, 41-56.