Як зробити багатоваріантне машинне навчання? (передбачення декількох залежних змінних)


9

Я хочу передбачити групи предметів, які хтось придбає ... тобто у мене є декілька змінних, що залежать від коліна.

Замість того, щоб будувати 7 або більше незалежних моделей, щоб передбачити ймовірність того, що хтось купить кожен із 7 предметів, а потім поєднати результати, які методи я повинен розглянути, щоб мати одну модель, яка враховує зв'язки між 7 пов'язаними залежними змінними ( речі, які вони можуть придбати).

Я використовую R як мову програмування, тому будь-які конкретні поради щодо Р оцінюються.

Відповіді:


7

Виходячи з вашого опису, здається, що багаточленна логістична регресія є доречною. Якщо припустити, що ваш результат є фактором із 7 рівнів (один із 7 варіантів купівлі), то ви можете швидко передбачити членство, використовуючи багаточленну логістичну регресійну модель (див. ?multinomУ nnetпакеті на R). Якщо ваш результат не може бути об'єднаний у коефіцієнт із 7 рівнями, то для групування елементів, перш ніж підходити до мультиноміальної логістичної регресії, знадобиться кластерний аналіз.


Це не мультиноміальна регресія. У мене 7 різних продуктів, кожен продукт має до 4 факторів .... є полуниця, і сорти полуниці, а потім молоко і різні види молока, і яблука та різні види яблук, і мені потрібно передбачити правильність кошик для покупок ... так зелені яблука з вирощеною полуницею, з 2% молока тощо,
blast00

1
Я маю ваше рішення! Я рекомендую багатотомний аналіз латентного класу, в результаті якого результат є сукупністю факторів, які, як передбачається, групуються в один або кілька латентних класів. Членство в цих класах прогнозується на основі багаточленної логістичної регресії. Дивіться ?poLCAв R для отримання додаткової інформації про встановлення цієї моделі.
статистикаRus

Я читаю через це - дякую statsRus. Але повинні бути й інші способи.
blast00

Зокрема, методи машинного навчання, оскільки мені не потрібно підходити до розподілу ймовірностей / я добре з моделлю чорної скриньки
blast00

Майте на увазі, що велика кількість статистичних моделей насправді є непідвладними моделям машинного навчання - але ви праві, ми зазвичай дбаємо про вхідні дані цих моделей. Для керованого машинного навчання з багатьма входами та результатами (і якістю чорного поля) я б запропонував нейронні мережі ( ?nnetв R).
статистикаRus

5

Ви можете побудувати випадковий ліс, де кожен з ваших занять - це група предметів (наприклад, "зелені яблука з полуницею, що вирощується з 2% молока"). Тоді, виходячи з характеристик покупця або будь-яких ваших прогнозів, ви можете передбачити прогнозовану ймовірність придбання для кожної групи товарів. Я б використовував пакет randomForest R ( https://cran.r-project.org/web/packages/randomForest/index.html ) для цього.


3

Один із варіантів - отримати частоти всіх комбінацій придбання товару; виберіть кілька найпоширеніших комбінацій; потім побудуйте регресійну модель для прогнозування обраної комбінацією кожного. Наприклад, за допомогою бінарної логістичної регресії ви могли б передбачити придбання а) Білого вина, Брі, Полуниці та винограду проти б) Червоного вина, Чеддара та Гауди. Маючи більше 2 таких комбінацій, або якщо ви хочете включити категорію "нічого з перерахованого вище", багатоцінна логістична регресія, ймовірно, буде методом вибору.

Зауважте, що включення лише загальних комбо означає, що ви будете мати більше працюючих номерів кожного, але що ви будете виключати інші, принаймні, з цієї процедури. Я міг собі уявити 7 предметів, що створюють десятки комбо, вибраних принаймні кількома людьми. Це, можливо, занадто багато категорій для вашого зразка. Більше того, якби комбо було обрано лише декількома людьми, у вашої моделі було б дуже мало інформації для роботи.

Іншим варіантом є використання кластерного аналізу для отримання кількох наборів предметів, які, як правило, купуються разом. З 7 предметами, ймовірно, ви отримаєте менше 4 кластерів, що може полегшити ваше завдання. Якщо ви спробуєте кластерний аналіз і виявите результати непрацездатними, немає ніяких причин, чому вам доведеться їх використовувати: просто поверніться до описаного вище підходу на основі частоти. У цьому випадку, якщо я вас правильно прочитав, ви шукаєте найбільш описовий і цікавий масив категорій, і, встановивши це, вам не потрібно турбуватися про ступінь свободи чи багаторазове порівняння чи будь-які подібні проблеми, які можуть бути застосовані якщо ви намагалися скористатися кількома методами, виконуючи тест на зараження.


Дякую за цю пропозицію. Хоча повинні існувати багатоваріантні методи машинного навчання. Зрозуміло, як у вас може бути дві залежні змінні в "легшій" регресійній моделі .. і ви просто зробите lm (y + z ~ ...) .. Я думаю ..
blast00

0

Я припускаю, що ви хочете проаналізувати ситуацію, подібну до наступної;

Yi = f (X), де f () - нелінійна ланка, а X - вектор коваріатів, а Yi - i-й залежна змінна, що має порядковий характер (якщо вона категорична, Yi не може мати більше двох категорій), і скажіть у вашій моделі i = 1, 2, ... 5, і кожен з Yi s є співвіднесеним ... Якщо так, ви, безумовно, можете використовувати Multivariate Probit. R, Mplus і SAS можуть оцінити MVP

Навпаки, у вас Y = f (X), а Y (зауважте, що є лише один Y) є категоричним і, наприклад, має N категорій, так що вибір, зроблений над N категоріями, є винятковим і вичерпним; вам потрібно підходити до моделі Multinomial Logit. Існує також щось, що називається мультиноміальним пробітом, подібне до мультиноміального Logit.

Сподіваюсь, це допомагає. Дякую Санджой

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.