scikit-learn .predict () поріг за замовчуванням

Question 1

Я працюю над проблемою класифікації з незбалансованими класами (5% 1). Я хочу передбачити клас, а не ймовірність.

У бінарної задачі класифікації є scikit - х , classifier.predict()використовуючи 0.5за замовчуванням? Якщо ні, який метод за замовчуванням? Якщо це так, як я можу це змінити?

У scikit деякі класифікатори мають class_weight='auto'можливість, але не всі. Чи використовували class_weight='auto'б .predict()фактичну частку населення як поріг?

Який спосіб зробити це в такому класифікаторі MultinomialNB, який не підтримує class_weight? Крім використання, predict_proba()а потім обчислення класів самостійно.

Question 2

чи classifier.predict()за замовчуванням scikit використовує 0,5?

У імовірнісних класифікаторах, так. Це єдиний розумний поріг з математичної точки зору, як пояснювали інші.

Який спосіб зробити це в класифікаторі, як MultinomialNB, який не підтримує class_weight?

Ви можете встановити значення class_prior, яке є попередньою ймовірністю P ( y ) для класу y . Це фактично зміщує межу прийняття рішення. Напр

# minimal dataset
>>> X = [[1, 0], [1, 0], [0, 1]]
>>> y = [0, 0, 1]
# use empirical prior, learned from y
>>> MultinomialNB().fit(X,y).predict([1,1])
array([0])
# use custom prior to make 1 more likely
>>> MultinomialNB(class_prior=[.1, .9]).fit(X,y).predict([1,1])
array([1])

Question 3

Поріг можна встановити за допомогою clf.predict_proba()

наприклад:

from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state = 2)
clf.fit(X_train,y_train)
# y_pred = clf.predict(X_test)  # default threshold is 0.5
y_pred = (clf.predict_proba(X_test)[:,1] >= 0.3).astype(bool) # set threshold as 0.3

Question 4

Порогове значення в scikit learn становить 0,5 для двійкової класифікації, і будь-який клас має найбільшу ймовірність для багатокласової класифікації. У багатьох проблемах набагато кращий результат можна отримати, регулюючи поріг. Однак це потрібно робити обережно, а НЕ щодо даних випробувальних тестів, а шляхом перехресного підтвердження даних про навчання. Якщо ви виконуєте будь-яке коригування порогового значення для даних тесту, ви просто переоблаштовуєте дані тесту.

Більшість методів регулювання порогу базуються на робочих характеристиках приймача (ROC) та статистиці J Юдена, але це також може бути зроблено іншими методами, такими як пошук за генетичним алгоритмом.

Ось стаття журналу експертних оглядів, що описує це в медицині:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2515362/

Наскільки я знаю, для Python не існує пакету, але знайти його за допомогою грубої сили в Python досить просто (але неефективно).

Це якийсь код R, який це робить.

## load data
DD73OP <- read.table("/my_probabilites.txt", header=T, quote="\"")

library("pROC")
# No smoothing
roc_OP <- roc(DD73OP$tc, DD73OP$prob)
auc_OP <- auc(roc_OP)
auc_OP
Area under the curve: 0.8909
plot(roc_OP)

# Best threshold
# Method: Youden
#Youden's J statistic (Youden, 1950) is employed. The optimal cut-off is the threshold that maximizes the distance to the identity (diagonal) line. Can be shortened to "y".
#The optimality criterion is:
#max(sensitivities + specificities)
coords(roc_OP, "best", ret=c("threshold", "specificity", "sensitivity"), best.method="youden")
#threshold specificity sensitivity 
#0.7276835   0.9092466   0.7559022

Question 5

Здається, ви плутаєте тут поняття. Поріг не є поняттям "загального класифікатора" - найбільш базові підходи базуються на певному регульованому порозі, але більшість існуючих методів створюють складні правила класифікації, які не можуть (або, принаймні, не повинні) розглядатися як порогові значення.

Отже, спочатку - не можна відповісти на ваше запитання щодо порогу за замовчуванням класифікатора scikit, оскільки такого немає.

Зважування другого класу - це не поріг, це здатність класифікатора мати справу з незбалансованими класами, і це щось, що залежить від конкретного класифікатора. Наприклад - у випадку SVM це спосіб зважування слабких змінних у задачі оптимізації, або, якщо ви віддаєте перевагу, верхні межі значень множників Лагранжа, пов’язані з певними класами. Встановити для цього значення "авто" означає використання певної евристики за замовчуванням, але ще раз - це не може бути просто переведено в деяке порогове значення.

Наївний Байєс, з іншого боку, безпосередньо оцінює ймовірність занять за набором тренувань. Він називається "class prior", і ви можете встановити його в конструкторі зі змінною "class_prior".

З документації :

Попередні ймовірності занять. Якщо вказано, пріоритети не коригуються відповідно до даних.

Question 6

На випадок, якщо хтось відвідає цей потік, сподіваючись на готову до використання функцію (python 2.7). У цьому прикладі відсікання призначене для відображення співвідношення подій та не подій у вихідному наборі даних df , тоді як y_prob може бути результатом методу .predict_proba (припускаючи розшарування поділу поїзд / тест).

def predict_with_cutoff(colname, y_prob, df):
    n_events = df[colname].values
    event_rate = sum(n_events) / float(df.shape[0]) * 100
    threshold = np.percentile(y_prob[:, 1], 100 - event_rate)
    print "Cutoff/threshold at: " + str(threshold)
    y_pred = [1 if x >= threshold else 0 for x in y_prob[:, 1]]
    return y_pred

Не соромтеся критикувати / змінювати. Сподіваюся, це допомагає у рідкісних випадках, коли про балансування класів не може бути й мови, а сам набір даних є дуже незбалансованим.