Запитання з тегом «text-mining»

Посилається на підмножину розробки даних, що стосується вилучення інформації з даних у вигляді тексту шляхом розпізнавання шаблонів. Завданням видобутку тексту часто є автоматичне класифікацію даного документа на одну з ряду категорій та динамічне вдосконалення цієї продуктивності, що робить її прикладом машинного навчання. Одним із прикладів цього виду пошуку тексту є фільтри спаму, які використовуються для електронної пошти.

2
Як обчислити недоумкування утримування за допомогою латентного розподілу Діріхле?
Мене бентежить питання про те, як обчислити здивування зразка затримки, коли роблять приховане розподілення Діріхле (LDA). Документи на тему бризнуть над нею, змушуючи мене думати, що я пропускаю щось очевидне ... Здивування сприймається як хороший показник ефективності для LDA. Ідея полягає в тому, щоб ви зберігали зразок проведення, навчали свій …

5
Широка масштабна класифікація тексту
Я хочу зробити класифікацію моїх текстових даних. У мене 300 classes200 навчальних документів на заняття (так 60000 documents in total), і це, ймовірно, призведе до дуже високих розмірних даних (ми можемо шукати розміри, що перевищують 1 мільйон ). Я хотів би виконати наступні кроки в трубопроводі (просто щоб ви зрозуміли, …

2
Чому класифікатор регресійного регресу досить добре працює для класифікації тексту?
Під час експерименту з класифікації тексту я виявив класифікатор хребта, що генерує результати, які постійно перевершують тести серед тих класифікаторів, які частіше згадуються та застосовуються для завдань з виведення тексту, таких як SVM, NB, kNN тощо. Хоча я ще не розробив про оптимізацію кожного класифікатора в цій конкретній задачі класифікації …

1
Я хочу побудувати індекс злочинності та індекс політичної нестабільності на основі новин
У мене є цей побічний проект, де я переглядаю веб-сайти місцевих новин у своїй країні і хочу створити індекс злочинності та індекс політичної нестабільності. Я вже висвітлював інформаційно-пошукову частину проекту. Мій план: Непідконтрольне вилучення теми. Виявлення дублікатів поблизу. Контрольована класифікація та рівень інцидентів (злочинність / політичний - високий / середній …

1
Вхідні параметри для використання прихованого розподілу Діріхле
Під час використання моделювання тем (Latent Dirichlet Allocation) кількість тем є вхідним параметром, який потрібно вказати користувачеві. Мені здається, що ми також повинні запропонувати збірку наборів тем кандидатів, проти яких повинен діяти процес Діріхле? Чи правильно я розумію? На практиці, як налаштувати такий тип набору кандидатів?

1
Прогнозування теми за допомогою прихованого розподілу Діріхле
Я використав LDA на корпусі документів і знайшов деякі теми. Вихід мого коду - дві матриці, що містять ймовірності; ймовірності однієї док-теми та інші ймовірності слова-теми. Але я фактично не знаю, як використовувати ці результати, щоб передбачити тему нового документа. Я використовую вибірку Гіббса. Хтось знає як? Спасибі

2
Коли ми поєднуємо зменшення розмірності з кластеризацією?
Я намагаюся виконати кластеризацію на рівні документа. Я сконструював частотну матрицю терміна-документ і намагаюся кластеризувати ці великі розмірні вектори за допомогою k-засобів. Замість того, щоб безпосередньо кластеризувати, я спершу застосував сингулярний векторний розпад LSA (Latent Semantic Analysis) для отримання матриць U, S, Vt, вибрав відповідний поріг за допомогою діаграми екрана …

2
Який хороший метод кластеризації короткого тексту?
Я працюю над проблемою кластеризації тексту. Дані містять кілька пропозицій. Чи є хороший алгоритм, який досягає високої точності на короткому тексті? Чи можете ви надати хороші довідки? Такі алгоритми, як KMeans, спектральна кластеризація не дуже добре справляються з цією проблемою.

4
Text Mining: як кластерувати тексти (наприклад, статті новин) із штучним інтелектом?
Я створив кілька нейронних мереж (MLP (повністю підключений), Elman (повторюваний)) для різних завдань, таких як гра в понг, класифікація рукописних цифр та інше ... Крім того, я спробував створити кілька первинних нейронних мереж, наприклад, для класифікації багатозначних рукописних нотаток, але я абсолютно новий для аналізу та кластеризації текстів, наприклад, у …


5
Як здійснити однокласну класифікацію тексту?
Я маю справу з проблемою класифікації тексту. Веб-сканер сканує веб-сторінки певного домену, і для кожної веб-сторінки я хочу з’ясувати, належить вона лише одному певному класу чи ні. Тобто, якщо я називаю цей клас Позитивним , кожна сканована веб-сторінка належить або до класу Позитивний, або до класу Непозитивний . У мене …

3
Тематичні моделі для коротких документів
Натхненний цим питанням , мені цікаво, чи зроблена якась робота над тематичними моделями для великих збірок надзвичайно коротких текстів. Моя інтуїція полягає в тому, що Twitter повинен бути природним натхненником для таких моделей. Однак, з деяких обмежених експериментів, схоже, що стандартні тематичні моделі (LDA тощо) на цих даних досить погано …

2
Приклади виведення тексту з R (tm пакет)
Я провів три дні задумуючись tmпісля того, як прочитав друге чернетку документа, де він досліджував текстовий корпус з UCINET, показуючи текстові хмари, двомодні мережеві графіки та однокомпонентну розкладку (з графікою, використовуючи Stata). Я зіткнувся з великою кількістю питань: у Mac OS X є проблеми з Java за бібліотеками, такі як …
14 r  text-mining 

2
При яких n-грамах стають контрпродуктивними?
Роблячи природну мову, можна взяти корпус і оцінити ймовірність появи наступного слова в послідовності n. n зазвичай вибирається як 2 або 3 (біграми і триграми). Чи відомий момент, коли відстеження даних для n-го ланцюга стає контрпродуктивним, враховуючи кількість часу, яке потрібно для класифікації певного корпусу один раз на цьому рівні? …

1
Автоматичне вилучення ключових слів: використання схожих косинусів як функцій
У мене є документ-термін матриця , і тепер я хотів би отримати ключові слова для кожного документа з контрольованим методом навчання (SVM, Naive Bayes, ...). У цій моделі я вже використовую Tf-idf, Pos тег, ...ММM Але зараз мені цікаво про некси. У мене є матриця із косинусною схожістю між термінами.ССC …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.