Передача категоріальних даних до Дерева рішень Sklearn

Question 1

Є кілька публікацій про те, як кодувати категоричні дані в дерева рішень Sklearn, але з документації Sklearn ми отримали

Деякі переваги дерев рішень:

(...)

Здатний обробляти як числові, так і категоріальні дані. Інші методи, як правило, спеціалізуються на аналізі наборів даних, які мають лише один тип змінних. Докладніше див. У алгоритмах.

Але запущений наступний скрипт

import pandas as pd 
from sklearn.tree import DecisionTreeClassifier

data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data['B'] = ['b','b','a','b']
data['C'] = [0, 0, 1, 0]
data['Class'] = ['n','n','y','n']

tree = DecisionTreeClassifier()
tree.fit(data[['A','B','C']], data['Class'])

виводить таку помилку:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/site-packages/sklearn/tree/tree.py", line 154, in fit
    X = check_array(X, dtype=DTYPE, accept_sparse="csc")
  File "/usr/local/lib/python2.7/site-packages/sklearn/utils/validation.py", line 377, in check_array
    array = np.array(array, dtype=dtype, order=order, copy=copy)
ValueError: could not convert string to float: b

Я знаю, що в R можна передавати категоричні дані за допомогою Sklearn, чи можливо це?

Question 2

На відміну від прийнятої відповіді, я волів би використовувати для цього інструменти, надані Scikit-Learn. Основною причиною цього є те, що їх можна легко інтегрувати в трубопровід .

Сам Scikit-Learn пропонує дуже хороші класи для обробки категоріальних даних. Замість того , щоб писати для користувача функцію, ви повинні використовувати , LabelEncoderякий розроблений спеціально для цієї мети .

Зверніться до наступного коду з документації:

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
le.transform(["tokyo", "tokyo", "paris"])

Це автоматично кодує їх у цифри для ваших алгоритмів машинного навчання. Тепер це також підтримує повернення до рядків із цілих чисел. Ви можете зробити це, просто зателефонувавши inverse_transformнаступним чином:

list(le.inverse_transform([2, 2, 1]))

Це повернеться ['tokyo', 'tokyo', 'paris'].

Також зауважте, що для багатьох інших класифікаторів, крім дерев рішень, таких як логістична регресія або SVM, ви хотіли б кодувати свої категоріальні змінні за допомогою кодування One-Hot . Scikit-learn також підтримує це через OneHotEncoderклас.

Сподіваюся, це допомагає!

Question 3

(Це лише переформатування мого вищезазначеного коментаря від 2016 року ... він все ще справедливий.)

Прийнята відповідь на це питання вводить в оману.

У своїй сутності дерева рішень sklearn не обробляють категоричні дані - див. Випуск № 5442 .

Рекомендований підхід використання кодування етикеток перетворює на цілі числа, які DecisionTreeClassifier()буде розглядатися як числові . Якщо ваші категоричні дані не є порядковими, це погано - ви отримаєте розколи, які не мають сенсу.

Використання a OneHotEncoder- це єдиний діючий поточний спосіб, який дозволяє довільні розбиття, що не залежать від упорядкування етикеток, але обчислювально дорого.

Question 4

(..)

Здатний обробляти як числові, так і категоріальні дані.

Це означає лише те, що ви можете використовувати

клас DecisionTreeClassifier для задач класифікації
клас DecisionTreeRegressor для регресії.

У будь-якому випадку вам потрібно одноразово кодувати категоріальні змінні, перш ніж розміщувати дерево за допомогою sklearn, приблизно так:

import pandas as pd
from sklearn.tree import DecisionTreeClassifier

data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data['B'] = ['b','b','a','b']
data['C'] = [0, 0, 1, 0]
data['Class'] = ['n','n','y','n']

tree = DecisionTreeClassifier()

one_hot_data = pd.get_dummies(data[['A','B','C']],drop_first=True)
tree.fit(one_hot_data, data['Class'])

Question 5

Для номінальних категоріальних змінних, я б не використати , LabelEncoderале sklearn.preprocessing.OneHotEncoderі pandas.get_dummiesзамість цього , тому що звичайно не порядок цих типів змінних.

Question 6

Дерева рішень Sklearn не обробляють перетворення категоріальних рядків у числа. Я пропоную вам знайти функцію в Sklearn (можливо, це ), яка робить це, або вручну напишіть такий код, як:

def cat2int(column):
    vals = list(set(column))
    for i, string in enumerate(column):
        column[i] = vals.index(string)
    return column