Як зробити аналіз кореляції "пива та пелюшок"


8

У мене є дані, еквівалентні:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Я хотів би зробити якийсь аналіз цього набору даних, щоб отримати кореляційну матрицю, яка матиме подібні наслідки: якщо ви купили x, ви, ймовірно, купите y.

Використовуючи python (або, можливо, що-небудь, крім MATLAB), як я можу зробити це? Деякі основні вказівки чи вказівки на те, куди я повинен шукати, допоможуть.

Дякую,

Редагувати - Що я дізнався:

  1. Такі проблеми відомі як відкриття правил асоціації. У Вікіпедії є хороша стаття, яка висвітлює деякі поширені алгоритми для цього. Класичним алгоритмом для цього, здається, є Апріорі, завдяки Agrawal et. ін.

  2. Це привело мене до помаранчевого , пітонового пакету для інтеграції даних. Для Linux найкращим способом її встановлення є джерело за допомогою наданого setup.py

  3. Помаранчевий за замовчуванням зчитує введення з файлів, відформатованих одним із декількох підтримуваних способів.

  4. Нарешті, просте навчання правил асоціації Apriori є простим помаранчевим кольором.


3
Якщо ви шукали пакет R, arulesварто було б подивитися. Можливо, "правила асоціації" є хорошим пошуковим терміном
Karsten W.

2
Дивіться також алгоритм Apriori щодо "стандартного" підходу до цієї проблеми.
кардинал

Відповіді:


7

Окрім посилань, які були наведені в коментарях, ось ще кілька вказівок:

Щодо Python, я думаю, зараз у вас є уявлення про те, що вам слід шукати, але пакет Orange Data mining містить пакет щодо правил асоціації та наборів елементів (хоча для останнього я не можу знайти жодної посилання на веб-сайті).

Редагувати:

Нещодавно я натрапив на pysuggest, який є

механізм рекомендацій Top-N, який реалізує різноманітні алгоритми рекомендацій. Системи рекомендацій Top-N, персоналізована технологія фільтрації інформації, використовуються для ідентифікації набору N елементів, які будуть цікаві певному користувачеві. Останніми роками системи рекомендацій Top-N використовувались у ряді різних застосувань, наприклад, щоб рекомендувати товари, які клієнт, швидше за все, придбає; рекомендувати фільми, телевізійні програми чи музику користувачеві буде приємним; визначити веб-сторінки, які будуть цікаві; або навіть пропонувати альтернативні способи пошуку інформації.


Скільки продуктів, як мені цікаво, потрібно включити до недостатнього простого співвідношення матриці?
rolando2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.