Запитання з тегом «nlp»

Обробка природних мов (NLP) - це сфера інформатики, штучного інтелекту та лінгвістики, що стосується взаємодії комп'ютерів та людських (природних) мов. Таким чином, НЛП пов'язаний із сферою взаємодії людина-комп'ютер. Багато проблем, пов'язаних з NLP, пов'язані з розумінням природних мов, тобто з можливістю комп'ютерів отримувати значення від людського або природного мовлення, а інші передбачають генерування природних мов.

4
Латентний розподіл Діріхле проти ієрархічного процесу Діріхле
Латентне розподілення Діріхле (LDA) та ієрархічний процес Діріхле (HDP) - це процеси моделювання тем. Основна відмінність полягає в тому, що LDA вимагає уточнення кількості тем, а HDP - ні. Чому це так? І які відмінності, плюси та мінуси обох методів моделювання теми?
49 nlp  topic-model  lda 

5
Які існують стандартні способи обчислення відстані між документами?
Коли я кажу "документ", я маю на увазі такі веб-сторінки, як статті Вікіпедії та новини. Я вважаю за краще відповіді, що дають або ванільну лексичну метрику відстані, або сучасні семантичні метричні відстані, з більш сильним перевагою останніх.

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
Які алгоритми я повинен використовувати для класифікації роботи на основі даних резюме?
Зауважте, що я все роблю в Р. Проблема полягає в наступному: В основному, у мене є список резюме (резюме). Деякі кандидати будуть мати досвід роботи раніше, а деякі ні. Мета полягає в тому, щоб: грунтуючись на тексті їх резюме, я хочу класифікувати їх у різні сфери роботи. Я, зокрема, в …


4
Word2Vec для іменного розпізнавання особи
Я хочу використовувати реалізацію google word2vec для побудови названої системи розпізнавання сутностей. Я чув, що рекурсивні нейронні мережі з поширенням назад через структуру добре підходять для названих завдань розпізнавання об'єктів, але мені не вдалося знайти гідної реалізації або гідного підручника для цього типу моделі. Оскільки я працюю з нетиповим корпусом, …

3
Чому громади NLP та машинного навчання зацікавлені у глибокому навчанні?
Сподіваюся, ви можете мені допомогти, оскільки у мене є деякі запитання на цю тему. Я новачок у галузі глибокого навчання, і хоча я робив кілька навчальних посібників, я не можу співвідносити чи відрізняти поняття одне від одного.

3
Яке позиційне кодування в моделі трансформаторів?
Я новачок в ML, і це моє перше запитання тут, так що вибачте, якщо моє питання нерозумно. Я намагаюся прочитати та зрозуміти статтю Увага. Все, що вам потрібно, і в ній є малюнок: Я не знаю, що таке кодування позицій . прослухавши кілька відео на YouTube, я виявив, що це …

3
Що є кращим вкладом для Word2Vec?
Це більше схоже на загальне питання НЛП. Який відповідний вклад для підготовки вбудовування слова, а саме Word2Vec? Чи повинні всі речення, що належать до статті, бути окремим документом у корпусі? Або кожна стаття повинна бути документом у зазначеному корпусі? Це лише приклад використання python та gensim. Корпус розділений на речення: …

3
Як завантажувати розроблену модель FastText за допомогою Gensim?
Я спробував завантажити сюди розроблену модель FastText з цієї моделі Fasttext . Я використовую wiki.simple.en from gensim.models.keyedvectors import KeyedVectors word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) Але, це показує наступні помилки Traceback (most recent call last): File "nltk_check.py", line 28, in <module> word_vectors = KeyedVectors.load_word2vec_format('wiki.simple.bin', binary=True) File "P:\major_project\venv\lib\sitepackages\gensim\models\keyedvectors.py",line 206, in load_word2vec_format header = …
21 nlp  gensim 

2
Прогнозування слова за допомогою моделі Word2vec
Беручи під увагу пропозиція: «Коли я відкриваю ?? двері він починає нагрів автоматично» Я хотів би отримати список можливих слів у ?? з вірогідністю. Основне поняття, яке використовується у моделі word2vec, - це "передбачення" слова за оточуючим контекстом. Як тільки модель буде побудована, що це за правильна операція векторів контексту …

4
Як я можу отримати міру смислової подібності слів?
Який найкращий спосіб з’ясувати смислову схожість слів? Word2Vec добре, але не ідеально: # Using the 840B word Common Crawl GloVe vectors with gensim: # 'hot' is closer to 'cold' than 'warm' In [7]: model.similarity('hot', 'cold') Out[7]: 0.59720456121072973 In [8]: model.similarity('hot', 'warm') Out[8]: 0.56784095376659627 # Cold is much closer to 'hot' …

3
Як скласти список споріднених слів на основі початкових ключових слів?
Нещодавно я побачив класну функцію, яка колись була доступна в Google Таблицях: ви починаєте із написання кількох пов’язаних ключових слів у послідовних клітинках, скажімо: "синій", "зелений", "жовтий", і вона автоматично генерує подібні ключові слова (у цьому випадку , інші кольори). Дивіться більше прикладів цього відео на YouTube . Я хотів …

3
Набір даних для розпізнавання іменованої особи в неофіційному тексті
Зараз я шукаю мічені набори даних для підготовки моделі для вилучення названих об'єктів з неофіційного тексту (щось подібне до твітів). Оскільки великої літери та граматики часто не вистачає в документах у моєму наборі даних, я шукаю дані про домен, які є трохи більш "неофіційними", ніж статті новин та записи журналів, …
18 dataset  nlp 

4
Як коментувати текстові документи за допомогою метаданих?
Маючи багато текстових документів (на природній мові, неструктурованих), які можливі способи їх анотування за допомогою деяких смислових метаданих? Наприклад, розглянемо короткий документ: I saw the company's manager last day. Щоб мати змогу витягувати з неї інформацію, її потрібно зазначати додатковими даними, щоб бути менш неоднозначною. Процес пошуку таких метаданих не …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.