Запитання з тегом «text-mining»

Посилається на підмножину розробки даних, що стосується вилучення інформації з даних у вигляді тексту шляхом розпізнавання шаблонів. Завданням видобутку тексту часто є автоматичне класифікацію даного документа на одну з ряду категорій та динамічне вдосконалення цієї продуктивності, що робить її прикладом машинного навчання. Одним із прикладів цього виду пошуку тексту є фільтри спаму, які використовуються для електронної пошти.

2
Етичний та економічно вигідний масштабування даних із записом масштабування
Небагато речей у житті мені приносять задоволення, як скребкування структурованих та неструктурованих даних з Інтернету та використання їх у своїх моделях. Наприклад, Інструментарій даних щодо наукових даних (або RDSTKдля програмістів R) дозволяє мені отримувати багато хороших даних, заснованих на розташуванні, використовуючи IP-адреси або адреси, а пакет tm.webmining.pluginR для tmпрямого скрабування …

4
Альтернативи TF-IDF та косинусної подібності при порівнянні документів різного формату
Я працював над невеликим особистим проектом, який займає робочі навички користувача та пропонує найбільш ідеальну кар’єру для них, виходячи з цих навичок. Для цього я використовую базу списків завдань. На даний момент код працює наступним чином: 1) Обробіть текст кожного списку завдань, щоб витягнути навички, які згадуються в лістингу 2) …

3
Неструктурована класифікація тексту
Я буду класифікувати неструктуровані текстові документи, а саме веб-сайти невідомої структури. Кількість класів, до яких я класифікую, обмежена (на даний момент я вважаю, що існує не більше трьох). Хтось пропонує, як мені почати? Чи підхід "мішок слів" тут здійсненний? Пізніше я можу додати ще один етап класифікації на основі структури …

2
Алгоритм відповідності переваг
Є цей побічний проект, над яким я працюю, де мені потрібно структурувати рішення наступної проблеми. У мене дві групи людей (клієнти). Група Aмає намір придбати, а група Bмає намір продати визначений товар X. У продукту є низка атрибутів x_i, і моя мета - полегшити транзакцію між ними Aта Bшляхом їх …

2
Класифікація документів за допомогою згорткової нейронної мережі
Я намагаюся використовувати CNN (звивисту нейронну мережу) для класифікації документів. CNN для короткого тексту / речень вивчався у багатьох працях. Однак, схоже, жоден папір не використовував CNN для довгого тексту чи документа. Моя проблема полягає в тому, що в документі занадто багато функцій. У моєму наборі даних кожен документ містить …

1
Як визначити, чи послідовність символів - це англійське слово або шум
Які функції ви спробуєте витягнути зі списку слів для майбутнього передбачення, чи це існуюче слово чи просто безлад символів? Опис завдання, який я там знайшов . Ви повинні написати програму, яка зможе відповісти, чи є слово англійською. Це буде просто - вам просто потрібно буде пошукати слово в словнику - …

1
застосування word2vec до невеликих текстових файлів
Я абсолютно новачок у word2vec, тому, будь ласка, несуть це зі мною. У мене є набір текстових файлів, кожен з яких містить набір твітів, між 1000-3000. Я вибрав загальне ключове слово ("kw1") і хочу знайти семантично релевантні терміни для "kw1" за допомогою word2vec. Наприклад, якщо ключове слово "яблуко", я б …

3
Яка різниця між хеширующим векторизатором і векторизатором tfidf
Я перетворюю корпус текстових документів у слова векторів для кожного документа. Я спробував це за допомогою TfidfVectorizer та HashingVectorizer Я розумію, що "a HashingVectorizer" не враховує IDFоцінок, як TfidfVectorizer"". Причина, по якій я все ще працюю з a, HashingVectorizer- це гнучкість, яку вона дає під час роботи з величезними наборами …

4
Використання кластеризації в обробці тексту
Привіт, це моє перше питання в стеці Data Science. Я хочу створити алгоритм класифікації тексту. Припустимо, у мене є великий набір тексту та статей. Скажімо, близько 5000 простих текстів. Спочатку використовую просту функцію для визначення частоти всіх чотирьох і вище символьних слів. Потім я використовую це як особливість кожного навчального …

3
Непідконтрольне функціональне навчання для NER
Я впровадив систему NER з використанням алгоритму CRF із своїми ручними функціями, які дали досить хороші результати. Вся справа в тому, що я використав безліч різноманітних функцій, включаючи POS-теги та леми. Тепер я хочу зробити той самий NER для різної мови. Проблема тут полягає в тому, що я не можу …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Текстова класифікація-проблема: Word2Vec / NN найкращий підхід?
Я хочу створити систему, яка дасть абзац тексту, зможе його класифікувати та визначити контекст: Навчається з генерованих користувачем абзаців тексту (наприклад, коментарі / запитання / відповіді) Кожен предмет навчального набору буде позначений тегом. Так, наприклад ("категорія 1", "текст абзац") Будуть сотні категорій Який найкращий підхід для побудови такої системи? Я …

1
Кілька міток у контрольованому алгоритмі навчання
У мене є корпус тексту з відповідною тематикою. Наприклад, "A rapper Tupac was shot in LA"це було позначено як ["celebrity", "murder"]. Отже, в основному кожен вектор функцій може мати багато міток (не однакова кількість. Перший вектор функцій може мати 3 мітки, другий 1, третій 5). Якби мені кожен текст міг …

3
Вектор космічної моделі косинус tf-idf для пошуку подібних документів
Мають корпус з понад мільйона документів Для даного документа потрібно знайти подібні документи, використовуючи косинус, як у векторній космічній моделі d1⋅d2/(||d1||||d2||)г1⋅г2/(||г1||||г2||)d_1 \cdot d_2 / ( ||d_1|| ||d_2|| ) Всі tf були нормалізовані за допомогою збільшеної частоти, щоб запобігти упередженню до більш довгих документів, як у цьому tf-idf : tf(t,d)=0.5+0.5f(t,d)max{f(t,d):t∈d}тf(т,г)=0,5+0,5f(т,г)мах{f(т,г):т∈г}tf(t,d)=0.5+0.5\frac{f(t,d)}{\mathrm{max}\{f(t,d): t\in …

3
Аналіз файлів журналу: витяг інформаційної частини з частини значення
Я намагаюся створити набір даних на кількох файлах журналів одного з наших продуктів. Різні файли журналів мають власний макет і власний вміст; Я успішно згрупував їх разом, залишився лише один крок ... Дійсно, журнал "повідомлення" - найкраща інформація. У мене немає вичерпного списку всіх цих повідомлень, і це погана ідея …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.