Запитання з тегом «unbalanced-classes»

Дані, організовані в окремі категорії або * класи *, можуть створювати проблеми для певного аналізу, якщо кількість спостережень (н) належність до кожного класу не є постійною для всіх класів. Класи з нерівними є * незбалансованими *. н

2
Чи f-міра є синонімом точності?
Я розумію, що f-міра (заснована на точності та відкликання) - це оцінка того, наскільки точним є класифікатор. Крім того, f-міра віддається перевазі точності, коли у нас є неврівноважений набір даних. У мене просте запитання (яке стосується скоріше використання правильної термінології, ніж щодо технології). У мене незбалансований набір даних і я …

1
Криві ROC для незбалансованих наборів даних
Розглянемо вхідну матрицю та двійковий вихід .XXXyyy Поширений спосіб вимірювання продуктивності класифікатора - використання кривих ROC. У діаграмі ROC діагональ - це результат, який був би отриманий від випадкового класифікатора. У разі незбалансованого виводу продуктивність випадкового класифікатора можна покращити, вибравши або з різними ймовірностями.yyy000111 Як можна представити продуктивність такого класифікатора …

1
SMOTE викидає помилку для багатокласової проблеми дисбалансу
Я намагаюся використовувати SMOTE для виправлення дисбалансу в моїй проблемі класифікації класів. Хоча SMOTE чудово працює на наборі даних райдужної оболонки відповідно до довідкового документа SMOTE, він не працює на подібному наборі даних. Ось як виглядають мої дані Зауважте, у ньому є три класи зі значеннями 1, 2, 3. > …

1
Яка модель глибокого навчання може класифікувати категорії, які не є взаємовиключними
Приклади: у мене є речення в описі посади: "Старший інженер Java у Великобританії". Я хочу використовувати модель глибокого навчання, щоб передбачити її як 2 категорії: English і IT jobs. Якщо я використовую традиційну модель класифікації, вона може передбачити лише 1 мітку з softmaxфункцією на останньому шарі. Таким чином, я можу …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
Перебіг з категоричними змінними
Мені хотілося б виконати комбінацію пересимплінгу та недооцінки, щоб збалансувати мій набір даних із приблизно 4000 клієнтами, розділеними на дві групи, де одна з груп становить приблизно 15%. Я вивчив SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) та ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), але обидва вони створюють нові синтетичні зразки, використовуючи існуючі спостереження …

1
Поріг класифікації у RandomForest-sklearn
1) Як я можу змінити поріг класифікації (я думаю, це 0,5 за замовчуванням) у RandomForest у sklearn? 2) як я можу зробити недостатню вибірку в sklearn? 3) У мене є такий результат класифікатора RandomForest: [[1635 1297] [520 3624]] precision recall f1-score support class 0 0.76 0.56 0.64 2932 class 1 …

1
Найкращий спосіб обробляти незбалансований набір даних багаторівневих класів за допомогою SVM
Я намагаюся побудувати модель прогнозування з SVM на досить незбалансованих даних. Мій етикетки / вихід мають три класи: позитивний, нейтральний та негативний. Я б сказав, що позитивний приклад становить приблизно 10 - 20% моїх даних, нейтральний - 50 - 60%, а негативний - 30 - 40%. Я намагаюся збалансувати класи, …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.