Запитання з тегом «classification»

Екземпляр контрольованого навчання, який визначає категорію або категорії, до яких належить новий екземпляр набору даних.

8
Як встановити ваги класів для незбалансованих класів у Керасі?
Я знаю, що в Керасі є можливість зі class_weightsсловником параметрів при встановленні, але я не міг знайти жодного прикладу. Хтось такий добрий надати? До речі, у цьому випадку відповідна практика полягає у простому зважуванні класу меншин пропорційно його недооціненості?

6
Косинусна схожість проти крапкового продукту як метрики відстані
Схоже, що косинусна схожість двох ознак - це лише їх крапковий продукт, який масштабується добутком їх величин. Коли подібність косинуса робить кращу метрику відстані, ніж крапка добутку? Тобто, чи крапка точкового і косинусного подібності мають різні сильні сторони або слабкі місця в різних ситуаціях?

1
Яка найкраща модель Кераса для багатокласової класифікації?
Я працюю на дослідження, де необхідно класифікувати один з WINNER три події = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 Моя поточна модель: def build_model(input_dim, output_classes): …

5
Глибоке навчання проти збільшення градієнта: коли використовувати?
У мене є велика проблема даних з великим набором даних (візьмемо, наприклад, 50 мільйонів рядків і 200 стовпців). Набір даних складається з приблизно 100 числових стовпців та 100 категоричних стовпців та стовпця відповідей, що представляє проблему бінарного класу. Можливість кожної з категоричних стовпців менше 50. Я хочу апріорі знати, чи …

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Короткий посібник з навчання сильно незбалансованих наборів даних
У мене є проблема класифікації приблизно 1000 позитивних та 10000 негативних зразків у навчальному наборі. Тож цей набір даних є досить незбалансованим. Простий випадковий ліс просто намагається позначити всі тестові зразки як мажоритарний клас. Тут наведено кілька хороших відповідей щодо підбірки та зваженого випадкового лісу: Які наслідки для підготовки Деревного …

4
Коли використовувати Random Forest над SVM та навпаки?
Коли один використовувати Random Forestбільш SVMі навпаки? Я розумію, що cross-validationпорівняння моделі є важливим аспектом вибору моделі, але тут я хотів би дізнатися більше про правила роботи та евристику двох методів. Чи може хтось, будь ласка, пояснити тонкощі, сильні та слабкі сторони класифікаторів, а також проблеми, які найкраще підходять до …

4
Які алгоритми я повинен використовувати для класифікації роботи на основі даних резюме?
Зауважте, що я все роблю в Р. Проблема полягає в наступному: В основному, у мене є список резюме (резюме). Деякі кандидати будуть мати досвід роботи раніше, а деякі ні. Мета полягає в тому, щоб: грунтуючись на тексті їх резюме, я хочу класифікувати їх у різні сфери роботи. Я, зокрема, в …

4
Як отримати точність, F1, точність та відкликання для моделі кераса?
Я хочу обчислити точність, відкликання та показник F1 для моєї бінарної моделі KerasClassifier, але не знаходжу жодного рішення. Ось мій фактичний код: # Split dataset in train and test data X_train, X_test, Y_train, Y_test = train_test_split(normalized_X, Y, test_size=0.3, random_state=seed) # Build the model model = Sequential() model.add(Dense(23, input_dim=45, kernel_initializer='normal', activation='relu')) …

5
Чи є алгоритми дерева рішень лінійними чи нелінійними
Нещодавно в інтерв'ю мого друга запитали, чи алгоритми дерева рішень є лінійними чи нелінійними. Я намагався шукати відповіді на це питання, але не зміг знайти жодного задовільного пояснення. Чи може хтось відповісти та пояснити рішення цього питання? Також які ще є приклади нелінійних алгоритмів машинного навчання?

3
яка різниця між класифікацією тексту та моделями тем?
Я знаю різницю між кластеризацією та класифікацією в машинному навчанні, але я не розумію різниці між класифікацією тексту та моделюванням тем для документів. Чи можна використовувати моделювання тем над документами для ідентифікації теми? Чи можна використовувати методи класифікації для класифікації тексту всередині цих документів?

4
Незбалансовані багатокласові дані з XGBoost
У мене є 3 класи з цим розподілом: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 І я використовую xgboostдля класифікації. Я знаю, що є параметр, який називається scale_pos_weight. Але як це обробляється для "багатокласового" випадку і як я можу його правильно встановити?

2
Категоризація тексту: поєднання різного роду ознак
Проблема, яку я вирішую, - класифікація коротких текстів на кілька класів. Мій сучасний підхід полягає у використанні зважених термінальних частот tf-idf та вивченні простого лінійного класифікатора (логістична регресія). Це працює досить добре (близько 90% макро F-1 на тестовому наборі, майже 100% на навчальному наборі). Великою проблемою є невидимі слова / …

4
Коли можна використовувати відстань Манхеттена як протилежну евклідовій відстані?
Я намагаюся шукати хороший аргумент щодо того, чому можна використовувати відстань Манхеттена над евклідовою дистанцією в машинному навчанні. Найближча річ, яку я вважаю хорошим аргументом до цих пір, є на цій лекції MIT . О 36:15 на слайдах ви можете побачити таке твердження: "Зазвичай використовують евклідову метрику; Манхеттен може бути …

2
Як підвищити точність класифікаторів?
Я використовую OpenCV letter_recog.cpp приклад для експерименту над випадковими деревами та іншими класифікаторами. У цьому прикладі є реалізація шести класифікаторів - випадкових дерев, підсилюючих, MLP, kNN, наївних Bayes та SVM. Використовується набір даних розпізнавання листів UCI з 20000 екземплярами та 16 функціями, які я розділив навпіл для тренувань та тестування. …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.