Запитання з тегом «unbalanced-classes»

5
Чи варто шукати набір даних "збалансований" або "представник"?
Моє завдання «машинного навчання» - відокремити доброякісний Інтернет-трафік від шкідливого трафіку. У реальному сценарії більшість (скажімо, 90% або більше) Інтернет-трафіку є доброякісними. Таким чином, я відчув, що мені слід вибрати подібний параметр даних і для навчання моїх моделей. Але я натрапив на дослідницький документ або два (в моєму районі роботи), …

4
Короткий посібник з навчання сильно незбалансованих наборів даних
У мене є проблема класифікації приблизно 1000 позитивних та 10000 негативних зразків у навчальному наборі. Тож цей набір даних є досить незбалансованим. Простий випадковий ліс просто намагається позначити всі тестові зразки як мажоритарний клас. Тут наведено кілька хороших відповідей щодо підбірки та зваженого випадкового лісу: Які наслідки для підготовки Деревного …

4
Незбалансовані багатокласові дані з XGBoost
У мене є 3 класи з цим розподілом: Class 0: 0.1169 Class 1: 0.7668 Class 2: 0.1163 І я використовую xgboostдля класифікації. Я знаю, що є параметр, який називається scale_pos_weight. Але як це обробляється для "багатокласового" випадку і як я можу його правильно встановити?

4
Які наслідки для навчання ансамблю дерев із сильно упередженими наборами даних?
У мене є дуже упереджений бінарний набір даних - у мене на 1000 разів більше прикладів негативного класу, ніж позитивного класу. Я хотів би тренувати ансамбль дерев (наприклад, додаткові випадкові дерева або випадковий ліс) за цими даними, але важко створити набори навчальних наборів, які містять достатньо прикладів позитивного класу. Якими …

2
Як ви застосовуєте SMOTE для класифікації тексту?
Техніка синтезу синтетичних меншин (SMOTE) - техніка пересимплінгу, яка використовується при незбалансованій задачі набору даних. Поки що у мене є ідея, як це застосувати до загальних, структурованих даних. Але чи можна застосувати його до проблеми класифікації тексту? Яка частина даних вам потрібна для вибірки? Є вже інше питання щодо цього, …

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Неврівноважені класи - Як мінімізувати помилкові негативи?
У мене є набір даних, який має атрибут бінарного класу. Є 623 випадки з класом +1 (рак позитивний) та 101 671 екземпляр з класом -1 (рак негативний). Я випробував різні алгоритми (Naive Bayes, Random Forest, AODE, C4.5), і всі вони мають неприйнятні помилкові відхилення. Випадковий ліс має найвищу загальну точність …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.