У мене є дані, еквівалентні:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Я хотів би зробити якийсь аналіз цього набору даних, щоб отримати кореляційну матрицю, яка матиме подібні наслідки: якщо ви купили x, ви, ймовірно, купите y.
Використовуючи python (або, можливо, що-небудь, крім MATLAB), як я можу зробити це? Деякі основні вказівки чи вказівки на те, куди я повинен шукати, допоможуть.
Дякую,
Редагувати - Що я дізнався:
Такі проблеми відомі як відкриття правил асоціації. У Вікіпедії є хороша стаття, яка висвітлює деякі поширені алгоритми для цього. Класичним алгоритмом для цього, здається, є Апріорі, завдяки Agrawal et. ін.
Це привело мене до помаранчевого , пітонового пакету для інтеграції даних. Для Linux найкращим способом її встановлення є джерело за допомогою наданого setup.py
Помаранчевий за замовчуванням зчитує введення з файлів, відформатованих одним із декількох підтримуваних способів.
Нарешті, просте навчання правил асоціації Apriori є простим помаранчевим кольором.
arules
варто було б подивитися. Можливо, "правила асоціації" є хорошим пошуковим терміном