Запитання з тегом «classification»

Статистична класифікація - це проблема ідентифікації підгрупи, до якої належать нові спостереження, де ідентичність підгрупи невідома, на основі навчального набору даних, що містять спостереження, субпопуляція яких відома. Тому ці класифікації показуватимуть змінну поведінку, яку можна вивчити статистикою.

1
k-кратна перехресна перевірка ансамблевого навчання
Мене бентежить питання про розподіл даних для k-кратної перехресної перевірки ансамблевого навчання. Якщо припустити, що я маю ансамблеву базу для класифікації. Мій перший шар містить класифікаційні моделі, наприклад svm, дерева рішень. Мій другий шар містить модель голосування, яка поєднує прогнози з першого шару і дає остаточний прогноз. Якщо ми використовуємо …

2
Випадковий ліс є надмірним?
Я експериментую з випадковими лісами з scikit-learn, і я отримую чудові результати свого навчального набору, але порівняно погані результати на моєму тестовому наборі ... Ось проблема (натхненна покером), яку я намагаюся вирішити: Враховуючи дірові карти гравця A, картки гравців B з дірками та флоп (3 карти), який гравець має найкращу …

3
Напівконтрольне навчання, активне навчання та глибоке навчання для класифікації
Остаточне редагування з усіма оновленими ресурсами: Для проекту я застосовую алгоритми машинного навчання для класифікації. Завдання: Досить обмежені марковані дані та набагато більше мічених даних. Цілі: Застосовуйте напівнаглядову класифікацію Застосувати як-небудь напівпідконтрольний процес маркування (відомий як активне навчання) Я знайшов багато інформації з науково-дослідних робіт, таких як застосування EM, Transductive …

2
Класифікація тестування даних про незбалансований вибірки
Я працюю над сильно незбалансованими даними. У літературі використовується декілька методів, щоб збалансувати дані за допомогою повторного відбору вибірок (над- чи недостатня вибірка). Два хороших підходи: SMOTE: Техніка надмірного відбору синтетичних меншин ( SMOTE ) ADASYN: Адаптивний синтетичний підбір проб для збалансованого навчання ( ADASYN ) Я реалізував ADASYN, оскільки …

7
Об'єктивні дані в машинному навчанні
Я працюю над проектом машинного навчання з даними, які вже (сильно) упереджені підбором даних. Припустимо, у вас є набір жорстко закодованих правил. Як ви будуєте модель машинного навчання для її заміни, коли всі дані, які вона може використовувати, - це дані, які вже відфільтровані за цими правилами? Щоб зрозуміти, я …

1
Думки про перенапруження в цілому і зокрема алгоритм SMOTE [закритий]
Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 2 роки тому . Яка ваша думка щодо надмірного зразка в класифікації взагалі та алгоритму SMOTE зокрема? Чому …

5
Широка масштабна класифікація тексту
Я хочу зробити класифікацію моїх текстових даних. У мене 300 classes200 навчальних документів на заняття (так 60000 documents in total), і це, ймовірно, призведе до дуже високих розмірних даних (ми можемо шукати розміри, що перевищують 1 мільйон ). Я хотів би виконати наступні кроки в трубопроводі (просто щоб ви зрозуміли, …

10
Набори даних у соціальних мережах
Заблокований . Це питання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Я шукаю набори даних у соціальній мережі (twitter, friendfeed, facebook, lastfm тощо) для завдань класифікації, бажано у форматі arff. Мої пошуки через UCI та Google досі …

3
Чи краще побудувати класифікатор багатокласового рівня, ніж кілька двійкових?
Мені потрібно класифікувати URL-адреси на категорії. Скажімо, у мене є 15 категорій, на які я планую занулювати кожну URL-адресу. Чи краще 15-ти класичний класифікатор? Де я маю 15 міток і генерую функції для кожної точки даних. Або створити 15 двійкових класифікаторів, скажімо: Movie чи Non-Movie, і використати цифри, які я …

2
Чому класифікатор регресійного регресу досить добре працює для класифікації тексту?
Під час експерименту з класифікації тексту я виявив класифікатор хребта, що генерує результати, які постійно перевершують тести серед тих класифікаторів, які частіше згадуються та застосовуються для завдань з виведення тексту, таких як SVM, NB, kNN тощо. Хоча я ще не розробив про оптимізацію кожного класифікатора в цій конкретній задачі класифікації …

1
Тест: Повідомте класифікатора за його межею рішення
Нижче наведено 6 меж рішення. Межі рішення - фіолетові лінії. Точки та хрестики - це два різних набори даних. Ми повинні вирішити, який з них: Лінійний SVM Кернелізоване SVM (Поліномне ядро ​​порядку 2) Перцепрон Логістична регресія Нейронна мережа (1 прихований шар з 10 випрямленими лінійними одиницями) Нейронна мережа (1 прихований …

3
Коли я не повинен використовувати класифікатор ансамблю?
Загалом, у проблемі класифікації, де мета - точно передбачити вибіркову приналежність до класу, коли я не повинен використовувати класифікатор ансамблю? Це питання тісно пов'язане з тим, чому б не завжди використовувати ансамблеве навчання? . Це питання задає, чому ми не використовуємо ансамблі весь час. Хочеться знати, чи є випадки, коли …

1
Коли Naive Bayes працює краще, ніж SVM?
У невеликій проблемі класифікації тексту, яку я розглядав, Naive Bayes демонстрував виставу, схожу на SVM або більше, і я дуже розгубився. Мені було цікаво, які фактори визначають тріумф одного алгоритму над іншим. Чи бувають ситуації, коли немає сенсу використовувати Naive Bayes над SVM? Чи може хтось пролити на це світло?

1
Я хочу побудувати індекс злочинності та індекс політичної нестабільності на основі новин
У мене є цей побічний проект, де я переглядаю веб-сайти місцевих новин у своїй країні і хочу створити індекс злочинності та індекс політичної нестабільності. Я вже висвітлював інформаційно-пошукову частину проекту. Мій план: Непідконтрольне вилучення теми. Виявлення дублікатів поблизу. Контрольована класифікація та рівень інцидентів (злочинність / політичний - високий / середній …

3
Порівняння двох результатів точності класифікатора за статистичною значимістю з t-тестом
Хочу порівняти точність двох класифікаторів за статистичною значимістю. Обидва класифікатори виконуються в одному наборі даних. Це змушує мене вважати, що я повинен використовувати тестовий тест з одного зразка з того, що я читав . Наприклад: Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 Це правильний тест для …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.