Наука про дані decision-trees

8

Коли я повинен використовувати домішки Джині на відміну від збільшення інформації?

Чи може хтось практично пояснити обґрунтування нечистоти Джині проти отримання інформації (на основі ентропії)? Який показник краще використовувати в різних сценаріях під час використання дерев рішень?

66 machine-learning decision-trees

6

рядки як особливості в дереві рішень / випадковому лісі

Я створюю деякі проблеми щодо застосування дерева рішень / випадкового лісу. Я намагаюся встановити проблему, яка має в якості функцій цифри, а також рядки (наприклад, назва країни). Тепер бібліотека scikit-learn приймає лише параметри як параметри, але я хочу вставити рядки так само, як вони несуть значну кількість знань. Як мені …

63 machine-learning python scikit-learn random-forest decision-trees

3

Навіщо нам потрібні XGBoost та Random Forest?

Мені не було зрозуміло в кількох поняттях: XGBoost перетворює слабких учнів у сильних. Яка перевага в цьому? Об’єднання багатьох слабких учнів замість того, щоб просто використовувати одне дерево? Випадковий ліс використовує різні зразки з дерева для створення дерева. У чому перевага цього методу замість того, щоб просто використовувати єдине дерево?

25 machine-learning data-mining random-forest decision-trees xgboost

5

Чи є алгоритми дерева рішень лінійними чи нелінійними

Нещодавно в інтерв'ю мого друга запитали, чи алгоритми дерева рішень є лінійними чи нелінійними. Я намагався шукати відповіді на це питання, але не зміг знайти жодного задовільного пояснення. Чи може хтось відповісти та пояснити рішення цього питання? Також які ще є приклади нелінійних алгоритмів машинного навчання?

21 machine-learning classification decision-trees algorithms pac-learning

5

збільшують теплову карту для новонароджених

Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

3

Як передбачити ймовірності в xgboost?

Нижче наведена функція прогнозування також дає значення -ve, тому ймовірності не можуть бути. param <- list(max.depth = 5, eta = 0.01, objective="binary:logistic",subsample=0.9) bst <- xgboost(param, data = x_mat, label = y_mat,nround = 3000) pred_s <- predict(bst, x_mat_s2) Я google & спробував, pred_s <- predict(bst, x_mat_s2,type="response") але це не вийшло. Питання …

16 machine-learning r predictive-modeling decision-trees

1

Як вибирається точка розщеплення для безперервних змінних у деревах рішень?

У мене є два питання, пов'язані з деревами рішень: Якщо у нас є безперервний атрибут, як ми обираємо значення розбиття? Приклад: Вік = (20,29,50,40 ....) Уявіть собі , що ми маємо безперервний атрибут , які мають значення в . Як я можу написати алгоритм, який знаходить точку розщеплення , щоб, …

15 classification data decision-trees

4

Дерево рішень проти КНН

У яких випадках краще використовувати дерево рішень, а в інших випадках - KNN? Навіщо використовувати один з них у певних випадках? А інший у різних випадках? (Переглядаючи його функціональність, а не алгоритм) Хтось має якісь пояснення чи посилання на це?

15 machine-learning data-mining decision-trees

4

Дерево рішень чи логістична регресія?

Я працюю над проблемою класифікації. У мене є набір даних, що містить рівну кількість категоричних змінних і безперервних змінних. Як я дізнаюся, яку техніку використовувати? між деревом рішення та логістичною регресією? Чи правильно вважати, що логістична регресія буде більш придатною для безперервної змінної, а дерево рішення буде більш придатним для …

14 classification logistic-regression decision-trees

1

Чи можуть посилені градієнти дерева підходити до будь-якої функції?

Для нейронних мереж у нас є теорема універсального наближення, яка стверджує, що нейронні мережі можуть наближати будь-яку безперервну функцію на компактному підмножині .RнRnR^n Чи є подібний результат для дерев, що підсилюють градієнт? Це здається розумним, оскільки ви можете продовжувати додавати більше гілок, але я не можу знайти жодного формального обговорення …

14 decision-trees

1

Дерева рішень: листяний (найкращий перший) та рівний обхід дерева

Випуск 1: Мене бентежить опис LightGBM щодо способу розширення дерева. Вони заявляють: Більшість алгоритмів навчання дерев рішень вирощують дерево за рівнем (глибиною) також, як і наступне зображення: Запитання 1 : Які "більшість" алгоритмів реалізовані таким чином? Наскільки я знаю, C4.5 і CART використовують DFS. XGBoost використовує BFS. Які ще алгоритми …

14 decision-trees xgboost

1

XGBRegressor проти xgboost.train величезна різниця швидкостей?

Якщо я треную свою модель, використовуючи наступний код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) він закінчується приблизно за 1 хвилину. Якщо я треную свою модель, використовуючи метод …

13 machine-learning python decision-trees xgboost efficiency

3

Неврівноважені класи - Як мінімізувати помилкові негативи?

У мене є набір даних, який має атрибут бінарного класу. Є 623 випадки з класом +1 (рак позитивний) та 101 671 екземпляр з класом -1 (рак негативний). Я випробував різні алгоритми (Naive Bayes, Random Forest, AODE, C4.5), і всі вони мають неприйнятні помилкові відхилення. Випадковий ліс має найвищу загальну точність …

11 classification random-forest decision-trees unbalanced-classes

3

Чи можуть регресивні дерева прогнозувати постійно?

Припустимо, у мене є така гладка функція, як . У мене є навчальний набір D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} і, звичайно, я не знаю f, хоча можу оцінити f, куди хочу.f( х , у) = …

11 predictive-modeling regression decision-trees

2

Як нормалізувати дані для нейронної мережі та лісу рішень

У мене є набір даних з 20000 зразків, кожен має 12 різних функцій. Кожен зразок або в категорії 0, або 1. Я хочу навчити нейронну мережу та ліс прийняття рішень класифікувати зразки, щоб я міг порівняти результати та обидві методи. Перше, на що я натрапив - це належна нормалізація даних. …

10 neural-network decision-trees normalization

Запитання з тегом «decision-trees»