Призначте ваги змінним в кластерному аналізі


12

Я хочу призначити різні ваги змінним в моєму кластерному аналізі, але моя програма (Stata), схоже, не має можливості для цього, тому мені потрібно це зробити вручну.

Уявіть 4 змінних A, B, C, D. Вага для цих змінних повинна бути

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

Мені цікаво, чи справді вдасться зробити один із наступних двох підходів:

  1. Спочатку я стандартизую всі змінні (наприклад, за їх діапазоном). Потім я помножую кожну стандартизовану змінну на їх вагу. Потім робіть аналіз кластера.
  2. Я помножую всі змінні на їх вагу і згодом їх стандартизую. Потім робіть аналіз кластера.

Або обидві ідеї є повною нісенітницею?

[EDIT] Алгоритми кластеризації (я пробую 3 різні), які я хочу використати - це k-засоби, середньозважена зв'язок та середня зв'язок. Я планую використовувати середньозважений зв'язок, щоб визначити велику кількість кластерів, які потім я підключаю до k-засобів.


1
Обидва способи, як правило, невірні. Множення значень змінних не еквівалентне значення зважування змінної для кластеризації. Якщо програма не має можливості зважування, ви можете це робити іноді з даними, як хочете, але це залежить від точного характеру вашої кластеризації. Отже, опишіть (у своєму запитанні) деталі кластеризації: який алгоритм та метод ви збираєтеся використовувати.
ttnphns

2
Зауважимо, що найпростішим і універсальним способом зважування змінних (а ваги є цілими числами або їх можна скласти цілими числами) було б просто поширити змінні в рази, ніж ці ваги. У вашому прикладі ви можете взяти 50 As, 25 Bs, 10 Cs, 15 Ds у вашій кластеризації.
ttnphns

8
Або альтернатива: Якщо ви використовуєте кластеризацію на основі евклідової міри або використовуєте k-засоби, помножте кожну змінну на квадратний корінь її ваги. Це мультиплікація, звичайно, слід зробити після будь-якої попередньої обробки (наприклад, стандартизації), яку ви могли б зробити перед кластеризацією.
ttnphns

Відповіді:


7

Один із способів присвоїти вазі змінній - це зміна її масштабу. Трюк працює для алгоритмів кластеризації, які ви згадуєте, а саме. k-означає, середньозважена зв'язок і середня середня зв'язок.

Кауфман, Леонард та Пітер Дж. Руссо. " Пошук груп у даних: вступ до кластерного аналізу ." (2005) - стор. 11:

Вибір одиниць вимірювання породжує відносні ваги змінних. Вираження змінної у менших одиницях призведе до збільшення діапазону для цієї змінної, що потім матиме великий вплив на отриману структуру. З іншого боку, стандартизуючи спроби надати всім змінним однакову вагу в надії на досягнення об'єктивності. Як такий, він може бути використаний практикуючим лікарем, який не має попередніх знань. Однак, цілком може бути, що деякі змінні за своєю суттю важливіші, ніж інші, у певній програмі, і тоді призначення ваг має базуватися на знаннях про предмет (див., Наприклад, Abrahamowicz, 1985).

З іншого боку, були спроби розробити методи кластеризації, які не залежать від масштабу змінних (Friedman and Rubin, 1967). Пропозиція Харді та Рассона (1982) полягає у пошуку перегородки, яка мінімізує загальний об'єм опуклих корпусів кластерів. В принципі такий метод є інваріантним щодо лінійних перетворень даних, але, на жаль, не існує алгоритму його впровадження (за винятком наближення, яке обмежується двома вимірами). Тому дилема стандартизації видається неминучою в даний час, і програми, описані в цій книзі, залишають вибір на користувачі

Abrahamowicz, M. (1985), Використання нечислової інформації pnon для вимірювання відмінностей, документ, представлений на четвертому Європейському засіданні Психометричного товариства та класифікаційних товариств, 2-5 липня, Кембридж (Великобританія).

Friedman, HP, and Rubin, J. (1967), Про деякі інваріантні критерії групування даних. J. Амер. Статист. ASSOC6., 2, 1159-1178.

Харді, А. і Рассон, JP (1982), Une nouvelle підходять до задач автоматизації класифікації, Statist. Анальний. Донні, 7, 41-56.


1
Ваша перша згадка якось згадана: Леонард Кауфман та Пітер Дж. Руссо - автори книги, з якою ви посилаєтесь.
Нік Кокс

О, дякую , що вказали на це ... Мене накрутив Лавуазьє, який помилився на їхній сторінці "Аутеристи: SEWELL Grandville, ROUSSEEUW Peter J.", який, у свою чергу, накрутив Gscholar, який я використовував для отримання довідки.
Franck Dernoncourt

Дякуємо @FranckDernoncourt! Якщо шкала (а отже, і діапазон) змінної визначає її вагу, не підійшов би до 1.) в моєму початковому запитанні було б якось правильним рішенням?
SPi

2
Так, підхід 1 є правильним і відповідає тому, що говорять Кауфман, Леонард та Пітер Дж. Руссо в параграфах, які я цитував у відповіді. Підхід 2 був би марним, оскільки стандартизація знімає ваги :)
Franck Dernoncourt
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.