Чи можна із категоричними даними існувати кластери без змінних?


19

Намагаючись пояснити кластерні аналізи, люди звичайно неправильно розуміють процес як пов'язаний із тим, чи співвідносяться змінні. Один із способів позбавити людей від цієї плутанини - це такий сюжет:

введіть тут опис зображення

Це чітко відображає різницю між питанням, чи існують кластери, і питанням, чи пов'язані між собою змінні. Однак це лише ілюструє відмінність суцільних даних. У мене виникають проблеми з продумуванням аналога з категоричними даними:

ID  property.A  property.B
1   yes         yes
2   yes         yes
3   yes         yes
4   yes         yes
5   no          no
6   no          no
7   no          no
8   no          no

Ми можемо бачити, що є два чіткі групи: люди, які мають властивості A і B, і люди, які не мають жодного. Однак якщо ми подивимось на змінні (наприклад, з тестом чи-квадрата), вони чітко пов'язані:

tab
#      B
# A     yes no
#   yes   4  0
#   no    0  4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389

Я вважаю, що я втрачаю з точки зору того, як побудувати приклад із категоричними даними, аналогічними тому, що є безперервними даними вище. Чи можливо навіть мати кластери з чисто категоричними даними, не змінюючи також змінні? Що робити, якщо змінні мають більше двох рівнів, або якщо у вас більша кількість змінних? Якщо кластеризація спостережень обов'язково тягне за собою зв'язки між змінними і навпаки, чи означає це, що кластеризація насправді не варто робити, коли у вас є лише категоричні дані (тобто, чи варто просто аналізувати змінні)?


Оновлення: Я не залишив багато запитання від початкового питання, тому що хотів зосередитись на ідеї, що можна створити простий приклад, який був би негайно інтуїтивним навіть для того, хто в значній мірі не знайомий з кластерними аналізами. Однак я усвідомлюю, що велика кількість кластеризації залежить від вибору відстаней та алгоритмів тощо. Це може допомогти, якщо я вкажу більше.

Я усвідомлюю, що кореляція Пірсона дійсно підходить лише для постійних даних. Для категоричних даних ми могли б розглянути тест чи-квадрата (для двосторонньої таблиці непередбачених ситуацій) або логіко-лінійну модель (для багатосторонніх таблиць на випадок надзвичайних ситуацій) як спосіб оцінити незалежність категоричних змінних.

Для алгоритму ми могли б уявити собі використання k-medoids / PAM, яке можна застосувати як до безперервної ситуації, так і до категоричних даних. (Зауважимо, що частина наміру, що стоїть за безперервним прикладом, полягає в тому, що будь-який розумний алгоритм кластеризації повинен бути здатний виявляти ці кластери, а якщо ні, то має бути можливим побудувати більш крайній приклад.)

Щодо поняття відстані. Я припускав Евклідова для безперервного прикладу, бо це було б найосновнішим для наївного глядача. Я припускаю, що відстань, аналогічна категоричним даним (оскільки це було б найбільш негайно інтуїтивно зрозумілим), було б простим узгодженням. Однак я відкритий для обговорення інших дистанцій, якщо це призведе до вирішення чи просто цікавої дискусії.


2
Цікаво , якщо у нас є що - щось на зразок кластерів в категоріальних даних на всіх . Це не так, як різниця між кластерами буде більшою, ніж у кластерах, або може говорити про різницю щільності між кластерами. Отже, якщо найбільш близькі відповідники є частими наборами елементів, то змінні повинні бути пов'язані для формування кластерів.
Anonymous-Mousse -Встановити Моніку

@ Аноні-Мус, це цікаво. Чому б не переробити це у відповідь? До речі, я можу зображувати кластери, що існують фактично (наприклад, у латентних безперервних змінних, які породжують різні ймовірності для різних рівнів номінальних змінних), але я підозрюю, що це не те, що ви мали на увазі.
gung - Відновити Моніку

Можна перетворити категоричний розподіл у вектор, компонентами якого є нормовані частоти. Тоді можна застосувати евклідову метрику. Це не єдиний варіант: math.umn.edu/~garrett/m/fun/notes_2012-13/02_spaces_fcns.pdf та en.m.wikipedia.org/wiki/Normed_vector_space

@ttnphns, ви, схоже, додали [data-association]тег. Я не впевнений, що це повинно вказувати, і він не має витягу / настанови щодо використання. Чи справді нам потрібен цей тег? Це здається хорошим кандидатом на видалення. Якщо нам справді це потрібно в CV, і ви знаєте, що це повинно бути, ви могли б принаймні додати до нього уривок?
gung - Відновіть Моніку

@gung, я теж не дуже розумію, на що може посилатися цей тег. Я додав це через тему "асоціація / співвідношення між атрибутами". Ви можете видалити тег з Q або взагалі. З іншого боку, настав час (я думаю) переосмислити наші теги, що охоплюють все поле кореляції / асоціації. Наприклад, чи слід зберігати "кореляцію" лише для кореляції Пірсона? Чи слід створити новий тег "змінних-асоціація" (замість "об'єднання даних")?
ttnphns

Відповіді:


11

Розглянемо випадок чіткого кластера з некорельованими змінними масштабу - наприклад, зображення праворуч угорі. І класифікуйте його дані.

введіть тут опис зображення

Ми розділили діапазон масштабів як змінних X, так і Y на 3 бункери, які далі ми вважаємо категоричними мітками. Більше того, ми оголосимо їх номінальними, а не порядковими, оскільки поставлене запитання стосується неявно і в першу чергу щодо якісних даних. Розмір плям - це частота в частоті стільникового столу; всі випадки в одній клітині вважаються однаковими.

Інтуїтивно та найбільш загально "кластери" визначаються як згустки точок даних, розділених розрідженими областями в "просторі" даних. Спочатку це було з масштабними даними, і воно залишається таким же враженням у перехресному табуляції категоризованих даних. X і Y зараз категоричні, але вони все ще виглядають некорельованими: асоціація chi-квадрата дуже близька до нуля. І кластери є.

Але пригадайте, що ми маємо справу з номінальними категоріями, порядок яких у таблиці є довільним. Ми можемо упорядкувати цілі рядки та / або стовпці, як нам подобається, не впливаючи на спостережуване значення chi-квадрата. Повторне упорядкування ...

введіть тут опис зображення

... щоб зустріти ці кластери просто зникли. Чотири комірки, a1, a3, c1 і c3, можуть бути об'єднані в один кластер. Отже, ні, у нас дійсно немає категоричних категорій даних.

Випадки клітин a1 і c3 (або аналогічно a3 і c1) є абсолютно різними: вони не мають однакових ознак. Щоб спонукати кластери в наших даних - a1 і c3, щоб сформувати кластери, - нам доведеться певною мірою спорожнити клітини a3 та c1, викинувши ці випадки з набору даних.

введіть тут опис зображення

Зараз кластери існують. Але в той же час ми втратили некорельованість. Діагональна структура з'являється в сигналах таблиці , які х-погляд статистика отримала далеко від нуля.

Шкода. Спробуємо одночасно зберегти некорельованість та більш-менш чіткі кластери. Наприклад, ми можемо вирішити достатньо спорожнити просто клітинку a3, а потім розглядати a1 + c1 як кластер, який протистоїть кластеру c3:

введіть тут опис зображення

Ця операція не принесла Chi-квадрата далеко від нуля ...

[Indeed, table such as for example
 6   6   1
 6   6   1
 1   1   0
retains about the same very low chi-square association after
dividing 2nd column by 3 and multiplying 2nd row by 3, which gives
 6   2   1
18   6   3
 1  1/3  0
Cell (1,2) got thrice lower frequency. We had, however, to upheave
cell (2,1) frequency thrice, to keep Chi-sq almost as before.]

... але ситуація з кластерами заплутана. Кластер a1 + c1 містить випадки, які частково однакові, частково наполовину не схожі. Те, що кластер відносно низько однорідний, сам по собі не є виключенням для структури чіткого кластера в наборі даних. Однак проблема наших категоричних даних полягає в тому, що кластер a1 + c1 нічим не кращий, ніж кластер c1 + c3, його симетричний аналог. Це означає, що рішення кластера нестабільне - це буде залежати від порядку справи в наборі даних. Нестабільне рішення, навіть воно відносно "чітко згруповане", є поганим рішенням, ненадійним.

Єдиним способом подолати проблему та зробити рішення ясним та стабільним буде відв’язати комірку c3 від комірки c1, перемістивши її дані нижче до комірки b3 (або до b2).

введіть тут опис зображення

Отже, у нас є чіткі кластери a1 + c1 vs b3. Але подивіться, тут знову з’являється діагональний візерунок - і чі-квадрат таблиці виходить високо вище нуля.

Висновок . Неможливо мати дві номінальні змінні, що не пов'язані з квадратним чи-квадратним, і хороші кластери випадків даних одночасно. Чіткі та стабільні кластери передбачають спонукання змінної асоціації.

Зрозуміло також, що якщо асоціація присутня - тобто діагональний візерунок існує або досягається шляхом переупорядкування - то кластери повинні існувати. Це пояснюється тим, що природа категоричних даних ("все або нічого") не дозволяє півтонів і граничних умов, тому картина, як знизу вліво в питанні ОП, не може скластися з категоричними, номінальними даними.

Я припускаю , що , як ми отримуємо все більше і більше номінальних змінних (замість двох) , які є bivariately хі-квадрат не пов'язані, ми наближаємося до можливості мати кластери. Але нульовий багатовимірний чі-квадрат, я думаю, все одно буде несумісний з кластерами. Це ще має бути показано (не мені чи ні цього разу).


Нарешті, зауваження до відповіді @ Bey (він же user75138), яку я частково підтримав. Я прокоментував це, погодившись із тим, що спочатку потрібно визначитися з метрикою відстані та мірою асоціації, перш ніж він зможе поставити питання "чи є змінна асоціація незалежною від кластерних випадків?". Це тому, що не існує універсальної міри асоціації, ні універсального статистичного визначення кластерів. Я ще додаю, він також повинен визначитися з технікою кластеризації. Різні методи кластеризації по-різному визначають, які саме "кластери" вони мають після. Отже, все твердження може бути правдивим.

Однак, слабкість такого висловлювання полягає в тому, що він занадто широкий. Слід намагатися конкретно показати, чи може і де вибір методу метрики відстані / асоціації / кластера відкриває місце для узгодження некоррельованості з кластерністю для номінальних даних. Він, зокрема, пам’ятає, що не всі численні коефіцієнти близькості до двійкових даних мають сенс з номінальними даними, оскільки для номінальних даних «в обох випадках не вистачає цього атрибуту» ніколи не може бути підставою для їх подібності.


Оновлення , звітування про мої результати досліджень.

.1

r

Висновки, як правило, підтримують міркування, наведені вище у відповіді. Ніколи не було дуже чітких скупчень (таких, які можуть виникнути, якщо асоціація хі-квадрат буде сильною). І результати різних критеріїв кластеризації часто суперечать один одному (що не дуже ймовірно очікувати, коли кластери дійсно зрозумілі).

Іноді ієрархічна кластеризація може запропонувати рішення k-кластеру, яке є дещо хорошим, як це спостерігається через критерій кластеризації кластеру; однак тестування його на стабільність не зможе показати, що він стабільний. Наприклад, це 3-змінні 4x4x3дані

   V1  V2  V3   Count
    1   1   1   21
            2   24
            3   1
        2   1   22
            2   26
            3   1
        3   1   1
            2   1
            3   1
        4   1   17
            2   20
            3   1
    2   1   1   10
            2   12
            3   1
        2   1   10
            2   12
            3   1
        3   1   1
            2   1
            3   1
        4   1   8
            2   9
            3   1
    3   1   1   24
            2   28
            3   1
        2   1   25
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1
    4   1   1   24
            2   28
            3   1
        2   1   26
            2   30
            3   1
        3   1   1
            2   1
            3   1
        4   1   19
            2   23
            3   1

коли кластеризовані методом повного зв’язку в пошуку, схожість на кістки, здається, розділена - цілком розумно - на 9 кластерів - в цьому випадку за згодою між трьома внутрішніми суддями дійсності:

введіть тут опис зображення

Але рішення не є стабільним, як видно з неповної розрідженості матриці плутанини вихідного рішення щодо перестановленого (перепорядкованого випадку) рішення:

введіть тут опис зображення

Якби рішення було стабільним (як це, мабуть, було б у нас безперервних даних), ми вибрали б рішення 9-кластерних як досить переконливе.

Кластеризація на відстані ймовірності відстані (на відміну від подібності Dice) може дати стабільні та "непогані" (внутрішньо цілком справедливі) рішення. Але це тому, що відстань, принаймні, як це є у кластері TwoStep SPSS, заохочує та сприяє розвитку високонаселених кластерів та нехтують малонаселеними. Він не вимагає, щоб кластери з дуже низькою частотою всередині були щільними (це, здається, "політика" кластерного аналізу TwoStep, який був розроблений спеціально для великих даних і для отримання декількох кластерів; тому малі кластери сприймаються так, як ніби вони застаріли) . Наприклад, ці 2-змінні дані

введіть тут опис зображення

поєднуватиметься TwoStep в 5 кластерів, як показано, стабільно, і рішення 5 кластерів зовсім не погано, як судять за деякими критеріями кластеризації. Оскільки чотири заселених кластера дуже щільні всередині (насправді всі випадки однакові), і лише один, п’ятий кластер, який включає в себе мало випадків, надзвичайно ентропійований. Таким очевидним насправді є 12-кластерне рішення, а не 5-кластерне, але 12 - загальна кількість комірок у таблиці частот, що як «кластерне рішення» є тривіальним та нецікавим.


+1, у цьому я підозрював. Попарно незв'язані проти багатовимірного незв'язаного цікавого моменту. Розглядаючи це питання ширше, чи означає це, що насправді немає жодного сенсу намагатися об'єднати суто номінальні дані? Тобто, чи повинні ми завжди аналізувати змінні, якщо у нас немає постійних даних?
gung - Відновити Моніку

1
@gung, ти не знаєш максимуму, що кореляція між змінними є іншою стороною поляризації монети випадків ("діагностичність")? Це справедливо, як максимально, також для постійних даних. Але для безперервної поляризація може не означати кластерів. Для категоричного виглядає, що це означає. Через дискретний характер. Тому, ймовірно, так, якщо категоріальні змінні співвідносяться, є кластери, які потрібно знайти. Але вам потрібно зробити кластеризацію для того, щоб покращити кластери. Це моя попередня думка щодо вашого чудового питання.
ttnphns

Я з цим не знайомий. Можливо, я запитаю про це пізніше. Це гарна інформація, яку зараз можна жувати, я думаю.
gung - Відновіть Моніку

3

Як я впевнений, ви знаєте, кореляція - це міра лінійної залежності між двома змінними, а не наскільки близькі точки одна до одної. Це пояснює чотири найкращі цифри.

Звичайно, ви також можете створити подібні графіки для дискретних даних з реальною вартістю.

Х{А,Б,С,D}RХRХ

Вам потрібно буде визначити показник для категоріального простору, перш ніж ви зможете навіть говорити про кластеризацію в геометричному сенсі.


Я б підтримав цю відповідь і переформулював би її, якщо і @gung, і Bey дозволяють, в інтуїтивному розумінні. Кластеризовані дані визначаються "малі відстані в кластері, але великі відстані між кластерами". На його фотографіях ОП вибрала неявно евклідову дистанцію, щоб проілюструвати цю ідею кластеризації. Він також вибрав поняття кореляції Пірсона або щось подібне до нього - для ілюстрації ідеї асоціації між змінними. Це два конкретні / довільні варіанти між багатьма альтернативами.
ttnphns

1
(продовження.) Я навіть можу собі уявити, що може бути обраний такий міра відстані та така міра асоціації, де концепція «кластерності випадку» та концепція «змінних асоціацій» не є ортогональними. А тепер для категоричних даних. Перш ніж можна перевірити та показати, чи можуть ці два поняття бути незалежними чи пов'язаними, він повинен вибрати конкретну міру відстані для категоричних точок даних та конкретну міру асоціації для категоричних змінних. Є багато альтернатив, з яких можна вибрати! І відповідь буде залежати.
ttnphns

@ttnphns (+1) Мені подобається, як ви поставили два основні варіанти: показники відстані та асоціації. Не знаю, що щодо мого пояснення не було інтуїтивно зрозумілим ... ви не можете визначити кластери без поняття відстані.

@ttnphns, я думаю, це залежить від Бея. Чому б ти не перетворив деякі свої ідеї на власну відповідь? Мене зацікавила б ідея, що "кластеризація випадку" та "змінні асоціації" стають неортогональними для безперервних даних, що дають певний вибір. Bey & ttnphns, я додав деякі роз'яснення до питання стосовно заходів дистанції та асоціації, але вам слід сміливо йти в іншому напрямку, якщо вам зручніше. Дайте мені знати, чи потрібно більше. Я вважаю за краще, щоб питання залишалося настільки "вільним", щоб дати відповідачам можливість рухатися в іншому напрямку.
gung - Відновити Моніку

1
@ Уважайте, звичайно, існує багато інших можливих заходів дистанції та асоціації щодо категоричних даних, тож ви можете запропонувати щось езотеричне, що змусить це працювати.
gung - Відновіть Моніку

2

Розглянемо відстань Хеммінга - відстань Хеммінга між двома струнами однакової довжини - це кількість позицій, на яких відповідні символи різні. З цього визначення виглядає очевидним, що ми можемо отримати дані, для яких у нас є кластери на основі відстані Хеммінга, але немає кореляцій між змінними.

Приклад випливає з використання Mathematica.

Створіть декілька категоричних даних (3 символи довгих послідовностей рівномірної випадкової вибірки з 4 символів):

chs = CharacterRange["a", "d"];
words = StringJoin @@@ Union[Table[RandomChoice[chs, 3], 40]];
Length[words]
words

(* 29 *)

(* {"aac", "aad", "abb", "aca", "acb", "acd", "adb", "adc", "baa", "bab", "bac", "bad", "bcc", "bcd", "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", "dba", "dbb", "dbd", "dca", "dcc", "dcd"} *)

Використовуйте мозаїчні графіки для зв’язку між змінними (умовні ймовірності для пар значень з різних стовпців):

Import["https://raw.githubusercontent.com/antononcube/MathematicaForPrediction/master/MosaicPlot.m"]
wordSeqs = Characters /@ words;
opts = {ColorRules -> {2 -> ColorData[7, "ColorList"]}, ImageSize -> 400};
Grid[{{MosaicPlot[wordSeqs[[All, {1, 2}]], 
    "ColumnNames" -> {"column 1", "column 2"}, opts],
   MosaicPlot[wordSeqs[[All, {2, 3}]], 
    "ColumnNames" -> {"column 2", "column 3"}, opts],
   MosaicPlot[wordSeqs[[All, {1, 3}]], 
    "ColumnNames" -> {"column 1", "column 3"}, opts]}}, Dividers -> All]

введіть тут опис зображення

Ми можемо бачити, що кореляції немає.

Знайдіть кластери:

cls = FindClusters[words, 3, DistanceFunction -> HammingDistance]

(* {{"aac", "aad", "adc", "bac"}, {"abb", "acb", "adb", "baa", "bab", "bad", 
  "caa", "cab", "cac", "cad", "cbb", "ccb", "cda", "cdb", "dab", 
  "dbb"}, {"aca", "acd", "bcc", "bcd", "dba", "dbd", "dca", "dcc", "dcd"}} *)

Якщо замінити кожен символ на ціле число, то з цього сюжету ми можемо побачити, як кластери формуються з відстані Хеммінга:

esrules = Thread[chs -> Range[Length[chs]]]; gr1 = 
 ListPointPlot3D[Characters[cls] /. esrules, 
  PlotStyle -> {PointSize[0.02]}, PlotLegends -> Automatic, 
  FaceGrids -> {Bottom, Left, Back}];
gr2 = Graphics3D[
   Map[Text[#, Characters[#] /. esrules, {1, 1}] &, Flatten[cls]]];
Show[gr1, gr2]

введіть тут опис зображення

Подальше кластеризація

Зробимо графік, з'єднавши слова, для яких відстань Хеммінга дорівнює 1:

mat = Clip[Outer[HammingDistance, words, words], {0, 1}, {0, 0}];
nngr = AdjacencyGraph[mat, 
  VertexLabels -> Thread[Range[Length[words]] -> words]]

введіть тут опис зображення

Тепер давайте знайдемо кластери спільноти:

CommunityGraphPlot[nngr]

введіть тут опис зображення

Порівняйте графічні кластери з знайденими з FindClusters(які змушені були знайти 3). Ми можемо бачити, що "bac" є вкрай центральним, а "aad" може належати до зеленого кластера, що відповідає кластеру 1 в 3D-графіці.

Дані графіків

Ось крайовий список nngr:

{1 <-> 2, 1 <-> 8, 1 <-> 11, 1 <-> 17, 2 <-> 6, 2 <-> 12, 2 <-> 18, 
 3 <-> 5, 3 <-> 7, 3 <-> 19, 3 <-> 25, 4 <-> 5, 4 <-> 6, 4 <-> 27, 
 5 <-> 6, 5 <-> 7, 5 <-> 20, 6 <-> 14, 6 <-> 29, 7 <-> 8, 7 <-> 22, 
 9 <-> 10, 9 <-> 11, 9 <-> 12, 9 <-> 15, 10 <-> 11, 10 <-> 12, 
 10 <-> 16, 10 <-> 23, 11 <-> 12, 11 <-> 13, 11 <-> 17, 12 <-> 14, 
 12 <-> 18, 13 <-> 14, 13 <-> 28, 14 <-> 29, 15 <-> 16, 15 <-> 17, 
 15 <-> 18, 15 <-> 21, 16 <-> 17, 16 <-> 18, 16 <-> 19, 16 <-> 20, 
 16 <-> 22, 16 <-> 23, 17 <-> 18, 19 <-> 20, 19 <-> 22, 19 <-> 25, 
 20 <-> 22, 21 <-> 22, 23 <-> 25, 24 <-> 25, 24 <-> 26, 24 <-> 27, 
 25 <-> 26, 26 <-> 29, 27 <-> 28, 27 <-> 29, 28 <-> 29}

Ласкаво просимо на сайт! Лише пара зауважень: Якою мовою є код? (що, крім того, не зазначається). Як Ви визначаєте relationship between the variables (correlation)?
ttnphns

Це цікаво. На жаль, я не знаю Mathematica (і я менш знайомий з дистанцією редагування), тому мені потрібно пограти з цим, щоб бути впевненим, що я це розумію. У мене ще не було шансів, але я маю намір найближчим часом.
gung - Відновіть Моніку

@gung Я думав зробити це в R, але я подумав, що найважливішою частиною є 3D-графік і обертання його під прямим кутом (ими), щоб отримати уявлення про формування кластерів. Добре питання, до речі!
Антон Антонов

Тож у вас тут "кластери". Але чи значущі вони? Вони кращі за інші кластери? З сюжету, я б сказав, кластер 1 досить випадковий. То чому це кластер?
Аноні-Мус -Встановити Моніку

1
Випадкові рівномірні (!) Згенеровані дані явно не повинні мати кластерів. Сюжет "громади" вводить в оману, оскільки не зберігає відстані. Графік з 1-ою дистанцією підкреслює ці проблеми. Він також показує ще один такий приклад, cda. Вибачте, я не "купую" ці "кластери". Дані є рівномірними, у них, як передбачається, немає кластерів.
Аноні-Мус -Встановити Моніку

2

Точка @ttnphns про попарно проти багатоваріантної асоціації сприйнята. З цим пов'язано старе бачення важливості демонстрації асоціації з простими показниками, перш ніж стрибнути в багатовимірний фреймворк. Іншими словами, якщо прості парні заходи асоціації не виявляють стосунків, то стає все більш малоймовірним і те, що багатоваріантні відносини нічого не покажуть. Я кажу "все більш неправдоподібно" через небажання використовувати слово "неможливо". Крім того, я агностик щодо застосованої метрики, будь то монотонна кореляція Спірмена для порядкових даних, D Сомера, Тау Кендалла, поліхорна кореляція, МІК Решефа, кореляція відстані Шелькі, як би там не було. Вибір метрики не важливий у цій дискусії.

Оригінальна робота, зроблена з пошуку латентної структури в категоричній інформації, бере початок з 50-х років, і Пол Лазерсфельд, Колумбійський соціолог. По суті, він винайшов клас прихованих змінних моделей, який з того часу зазнав широкого розвитку та модифікації. По-перше, робота 60-х років Джеймса Коулмана, політичного економіста США, про приховану схильність до виборців, а потім внесок покійного Кліффорда Клогга, також соціолога, програмне забезпечення MELISSA було першим загальнодоступним безкоштовним безкоштовним класом.

У 80-ті роки моделі латентного класу були поширені від суто категоричної інформації до кінцевих моделей сумішей із розробкою таких інструментів, як «Латентне золото зі статистичних інновацій». Крім того, Білл Діллон, маркетолог, розробив програму Гаусса для встановлення прихованих дискримінантних моделей кінцевих сумішей. Література про цей підхід до пристосування сумішей категоричної та постійної інформації насправді досить обширна. Це просто не так добре відомо поза галузями, де воно найширше застосовується, наприклад, маркетингова наука, де ці моделі використовуються для сегментації та кластеризації споживачів.

Однак ці кінцеві модельні суміші підходів до латентного кластеризації та аналізу таблиць надзвичайних ситуацій вважаються старою школою в сучасному світі масових даних. Найсучаснішим у пошуку асоціації серед величезного набору таблиць на випадок надзвичайних ситуацій є декомпозиції, доступні для розгортання тензорних моделей, таких як розроблені Девідом Дансоном та іншими байєсами у герцога. Ось конспект одного з їхніх робіт, а також посилання:

Аналіз таблиць на випадок звичайних ситуацій покладається на лінійні моделі журналів, при цьому латентний аналіз структури забезпечує загальну альтернативу. Моделі латентної структури призводять до тензорної факторизації низького рангу функції масової ймовірності для багатоваріантних категоріальних даних, тоді як лінійні моделі журналу досягають зменшення розмірності за допомогою розрідженості. Мало відомо про зв’язок між цими поняттями зменшення розмірності в двох парадигмах. Ми отримуємо кілька результатів, пов'язаних з підтримкою лінійно-лінійної моделі з негативним рангом асоційованого тензора ймовірностей. Мотивовані цими висновками, ми пропонуємо новий згорнутий клас Тюкера тензорних декомпозицій, який з'єднує існуючі розклади PARAFAC і Таккера, забезпечуючи більш гнучку основу для парсимонізованої характеристики багатоваріантних категоріальних даних.

https://arxiv.org/pdf/1404.0396.pdf


Це цікава інформація. Мені не так зрозуміло, як це пов’язано з питанням.
gung - Відновити Моніку

gung Враховуючи широке обговорення та основоположні питання, що виникають щодо того, чи існують кластери категоричних даних, ваша недооцінка щодо актуальності мого внеску викликає здивування. На мій погляд, надана інформація висвітлює сфери методології та виявлення знань, які раніше були ігноровані. Чи можу я також зазначити моє первісне спостереження - явно звернене до питання ОП - щодо того, що стрибок від попарно до багатоваріантної асоціації є дуже малоймовірним за відсутності асоціації на більш простому рівні.
Майк Хантер

Я не мав на увазі жодної образи, @DJohnson. Мені (дещо) знайомі ж / латентні моделі кластеризації категоріальних даних (тобто аналіз прихованих класів). Я на це нагадав у своєму коментарі вище. Я не був таким знайомим з історії, дослідників та програмного забезпечення. Це цікаво. Я не зовсім розумію, як це відповідає на питання, чи можуть бути виявлені кластери в номінальних даних, де змінні не виявляють жодної асоціації. Якщо це те, до чого ви звертаєтесь, корисний приклад. Ви можете надати його?
gung - Відновіть Моніку

@gung Звичайно, ні, і ніхто не приймається.
Мистер Хантер
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.