Типовий спосіб навчання (1-рівневого) дерева рішень - це пошук такого атрибута, який дає найчистіший розкол. Тобто, якщо ми розділимо наш набір даних на два підмножини, ми хочемо, щоб мітки в цих підмножинах були максимально однорідними. Таким чином, це також можна розглядати як будувати багато дерев - дерево для кожного атрибуту - а потім вибирати дерево, яке дає найкращий розкол.
У деяких випадках також має сенс вибрати підмножину атрибутів, а потім тренувати дерева на підмножині. Наприклад, це використовується в Random Forest для зменшення співвідношення між окремими деревами.
Але якщо мова йде про AdaBoost, зазвичай достатньо, щоб переконатися, що базовий класифікатор може бути навчений на зважених точках даних, і вибір випадкових ознак є менш важливим. Дерева рішень можуть обробляти ваги (див., Наприклад, тут або тут ). Це може бути здійснено шляхом зважування внеску кожної точки даних у загальну домішку підмножини.
Для довідки я також додам мою реалізацію AdaBoost в python, використовуючи numpy та sklearnDecisionTreeClassifier
з max_depth=1
:
# input: dataset X and labels y (in {+1, -1})
hypotheses = []
hypothesis_weights = []
N, _ = X.shape
d = np.ones(N) / N
for t in range(num_iterations):
h = DecisionTreeClassifier(max_depth=1)
h.fit(X, y, sample_weight=d)
pred = h.predict(X)
eps = d.dot(pred != y)
alpha = (np.log(1 - eps) - np.log(eps)) / 2
d = d * np.exp(- alpha * y * pred)
d = d / d.sum()
hypotheses.append(h)
hypothesis_weights.append(alpha)
Для прогнозування міток:
# X input, y output
y = np.zeros(N)
for (h, alpha) in zip(hypotheses, hypotheses_weight):
y = y + alpha * h.predict(X)
y = np.sign(y)