Один із варіантів - отримати частоти всіх комбінацій придбання товару; виберіть кілька найпоширеніших комбінацій; потім побудуйте регресійну модель для прогнозування обраної комбінацією кожного. Наприклад, за допомогою бінарної логістичної регресії ви могли б передбачити придбання а) Білого вина, Брі, Полуниці та винограду проти б) Червоного вина, Чеддара та Гауди. Маючи більше 2 таких комбінацій, або якщо ви хочете включити категорію "нічого з перерахованого вище", багатоцінна логістична регресія, ймовірно, буде методом вибору.
Зауважте, що включення лише загальних комбо означає, що ви будете мати більше працюючих номерів кожного, але що ви будете виключати інші, принаймні, з цієї процедури. Я міг собі уявити 7 предметів, що створюють десятки комбо, вибраних принаймні кількома людьми. Це, можливо, занадто багато категорій для вашого зразка. Більше того, якби комбо було обрано лише декількома людьми, у вашої моделі було б дуже мало інформації для роботи.
Іншим варіантом є використання кластерного аналізу для отримання кількох наборів предметів, які, як правило, купуються разом. З 7 предметами, ймовірно, ви отримаєте менше 4 кластерів, що може полегшити ваше завдання. Якщо ви спробуєте кластерний аналіз і виявите результати непрацездатними, немає ніяких причин, чому вам доведеться їх використовувати: просто поверніться до описаного вище підходу на основі частоти. У цьому випадку, якщо я вас правильно прочитав, ви шукаєте найбільш описовий і цікавий масив категорій, і, встановивши це, вам не потрібно турбуватися про ступінь свободи чи багаторазове порівняння чи будь-які подібні проблеми, які можуть бути застосовані якщо ви намагалися скористатися кількома методами, виконуючи тест на зараження.