Яка практична відмінність між правилами асоціації та деревами рішень при обробці даних?


19

Чи є дійсно простий опис практичних відмінностей між цими двома методиками?

  • Обидва, здається, використовуються для наглядового навчання (хоча правила асоціації також можуть поводитися без нагляду).

  • І те й інше можна використовувати для прогнозування

Найближче, що я знайшов до «хорошого» опису, - це « Підручник із Статсофта» . Кажуть, що правила Асоціації використовуються для:

... виявляти зв'язки або асоціації між конкретними значеннями категоричних змінних у великих наборах даних.

Хоча класифікатори дерева рішень описуються як такі, що використовуються для:

... передбачити приналежність випадків або об'єктів до класів категорично залежної змінної від їх вимірювань на одній або декількох змінних предиктора.

Однак, під час R Data Mining вони наводять приклад Правил асоціації, які використовуються з цільовим полем .

Таким чином, обидва можуть бути використані для прогнозування членства в групі, чи є ключовою відмінністю того, що дерева рішень можуть обробляти не категоричні вхідні дані, тоді як правила асоціації не можуть? Або є щось більш фундаментальне? Один із сайтів ( sqlserverdatamining.com ) говорить про те, що ключова різниця:

Правила дерев рішень засновані на отриманні інформації, тоді як правила асоціації - на популярності та / або впевненості.

Отже (можливо, відповідаючи на моє власне запитання) чи означає це, що правила асоціації оцінюються виключно на те, як часто вони з’являються в наборі даних (і як часто вони є «справжніми»), в той час як дерева рішень насправді намагаються мінімізувати відхилення?

Якщо хтось знає хороший опис, він би готовий вказати мені на це, це було б чудово.

Відповіді:


14

Ж=Ж1,,ЖмСЖСЖ

т1={i1,i2}т2={i1,i3,i4,i5}т3={i2,i3,i4,i5}тн={i2,i3,i4,i5}
{i3,i5}{i4}

Виявляється, ви можете використовувати аналіз асоціацій для деяких конкретних завдань класифікації, наприклад, коли всі ваші функції є категоричними. Ви повинні просто бачити елементи як функції, але це не те, для чого народжений аналіз асоціацій.


3
  • "Правила асоціації мають на меті знайти всі правила вище заданих порогів, що містять перекриваються підмножини записів, тоді як дерева рішень знаходять регіони в просторі, де більшість записів належать до одного класу. З іншого боку, дерева рішень можуть пропустити багато правил прогнозування, знайдених правилами асоціації тому що вони послідовно ділять на менші підмножини. Коли правило, знайдене деревом рішень, не знайдено правилами асоціації, це відбувається через те, що обмеження обрізали пошуковий простір, або тому, що підтримка чи впевненість були занадто високими ".

  • "Алгоритми правил асоціації можуть бути повільними, незважаючи на багато оптимізацій, запропонованих в літературі, оскільки вони працюють на комбінаторному просторі, тоді як дерева рішень можуть бути порівняно набагато швидшими, оскільки кожен розкол отримує послідовно менші підмножини записів."

  • Інша проблема полягає в тому, що дерева рішень можуть повторювати один і той же атрибут кілька разів для одного і того ж правила, оскільки такий атрибут є хорошим дискримінатором. Це не є великою проблемою, оскільки правила є сполучниками, і тому правило можна спростити до одного інтервалу для атрибута, але такий інтервал буде, як правило, малим, а правило занадто конкретним ".

Витяги з:

Ordonez, C., & Zhao, K. (2011). Оцінка правил асоціації та дерев рішень для прогнозування кількох цільових атрибутів. Інтелектуальний аналіз даних, 15 (2), 173–192.

Приємна стаття, що висвітлює цю тему, безумовно, варто прочитати.


2

Ми можемо стверджувати, що і правила асоціації, і дерева рішень пропонують користувачеві набір правил і, отже, обидва схожі, але ми повинні розуміти теоретичну різницю між деревами рішень та правилами асоціації, і далі, як правила, запропоновані обома, різняться за значенням або у вживанні.

По-перше, дерево рішень - це підхід, що контролюється, коли алгоритм намагається передбачити "результат". Типовим прикладом "результату" в реальних ситуаціях може бути, наприклад, збій, шахрайство, реакція на кампанію тощо. Отже, правила дерева рішень використовуються для прогнозування результату.

Навчання правилам асоціацій - це непідконтрольний підхід, коли алгоритм намагається знайти асоціації серед предметів, часто у великих комерційних базах даних. Типовий приклад великої комерційної бази даних - це транзакції роздрібної торгівлі, такі як історія покупок клієнтів на веб-сайті електронної комерції. Елементи можуть бути продуктами, придбаними в магазинах або фільмами, які переглядаються на онлайн-потокової платформі. Навчання правилам асоціації - це все про те, як купівля одного товару спонукає до придбання іншого товару.

По-друге, дерева рішень будуються на основі деяких показників домішок / невизначеності, наприклад, отримання інформації, коефіцієнта Джині або ентропії, тоді як правила асоціації виводяться на основі підтримки, впевненості та зміни.

По-третє, оскільки дерево рішень є підходом "під наглядом", його точність вимірюється, тоді як навчання правил асоціації є підходом "без нагляду", і тому його точність є суб'єктивною.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.