Наука про дані nlp

4

Альтернативи TF-IDF та косинусної подібності при порівнянні документів різного формату

Я працював над невеликим особистим проектом, який займає робочі навички користувача та пропонує найбільш ідеальну кар’єру для них, виходячи з цих навичок. Для цього я використовую базу списків завдань. На даний момент код працює наступним чином: 1) Обробіть текст кожного списку завдань, щоб витягнути навички, які згадуються в лістингу 2) …

12 nlp text-mining similarity cosine-distance

3

Ефективна модель бази даних для зберігання даних, індексованих n-грамами

Я працюю над додатком, який вимагає створення дуже великої бази даних з n-грамів, які існують у великому текстовому корпусі. Мені потрібні три ефективні типи операцій: пошук та вставка, індексовані самим n-грамом, і запит для всіх n-грамів, які містять суб-n-грам. Мені це здається, що база даних повинна бути гігантським деревом документів, …

12 nlp databases

3

Довідка щодо НЕР у NLTK

Я деякий час працюю в NLTK, використовуючи Python. Проблема, з якою я стикаюсь, полягає в тому, що з моїми спеціальними даними вони не допомагають навчати НЕР в NLTK Вони використовували MaxEnt і навчали його на корпусі ACE. Я багато шукав в Інтернеті, але не зміг знайти жодного способу, який би …

12 machine-learning python nlp

1

Скільки клітин LSTM я повинен використовувати?

Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

3

Чи є якісні нестандартні мовні моделі для python?

Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

4

Витягніть інформацію з речення

Я створюю простий чат. Я хочу отримати інформацію з відповіді користувача. Приклад сценарію: Bot : Hi, what is your name? User: My name is Edwin. Я хочу витягти ім’я Едвін із речення. Однак користувач може реагувати різними способами, такими як User: Edwin is my name. User: I am Edwin. User: …

11 python nlp

1

Як визначити, чи послідовність символів - це англійське слово або шум

Які функції ви спробуєте витягнути зі списку слів для майбутнього передбачення, чи це існуюче слово чи просто безлад символів? Опис завдання, який я там знайшов . Ви повинні написати програму, яка зможе відповісти, чи є слово англійською. Це буде просто - вам просто потрібно буде пошукати слово в словнику - …

11 machine-learning nlp text-mining algorithms

2

Як працюють «розпізнавачі намірів»?

Alexa Amazon , Mix Nuance's Mix і Facebook Wit.ai використовують подібну систему, щоб вказати, як перетворити текстову команду в наміри - тобто те, що комп'ютер зрозумів би. Я не впевнений, що це за "офіційна" назва, але я називаю це "визнанням наміру". В основному це спосіб перейти від "будь-ласка, встановіть моє …

11 machine-learning nlp

1

застосування word2vec до невеликих текстових файлів

Я абсолютно новачок у word2vec, тому, будь ласка, несуть це зі мною. У мене є набір текстових файлів, кожен з яких містить набір твітів, між 1000-3000. Я вибрав загальне ключове слово ("kw1") і хочу знайти семантично релевантні терміни для "kw1" за допомогою word2vec. Наприклад, якщо ключове слово "яблуко", я б …

11 machine-learning nlp text-mining

4

Як word2vec можна використовувати для ідентифікації невидимих слів та відношення їх до вже підготовлених даних

Я працював над моделлю gensim word2vec і вважав це дійсно цікавим. Мене цікавить пошук того, як невідоме / небачене слово при перевірці з моделлю зможе отримати подібні терміни з навченої моделі. Чи можливо це? Чи можна налаштувати word2vec для цього? Або навчальний корпус повинен мати всі слова, з якими я …

11 nlp deep-learning word-embeddings unsupervised-learning

3

Яка різниця між хеширующим векторизатором і векторизатором tfidf

Я перетворюю корпус текстових документів у слова векторів для кожного документа. Я спробував це за допомогою TfidfVectorizer та HashingVectorizer Я розумію, що "a HashingVectorizer" не враховує IDFоцінок, як TfidfVectorizer"". Причина, по якій я все ще працюю з a, HashingVectorizer- це гнучкість, яку вона дає під час роботи з величезними наборами …

11 nlp scikit-learn text-mining tfidf

3

Непідконтрольне функціональне навчання для NER

Я впровадив систему NER з використанням алгоритму CRF із своїми ручними функціями, які дали досить хороші результати. Вся справа в тому, що я використав безліч різноманітних функцій, включаючи POS-теги та леми. Тепер я хочу зробити той самий NER для різної мови. Проблема тут полягає в тому, що я не можу …

11 nlp text-mining feature-extraction

3

Як обробити природні мовні запити?

Мені цікаво запитувати природну мову. У Стенфорді є складний набір програмного забезпечення для обробки природних мов . Я також бачив бібліотеку Apache OpenNLP та загальну архітектуру текстової інженерії . Існує неймовірна кількість використань для обробки природних мов, що робить документацію цих проектів важкою для швидкого засвоєння. Чи можете ви трохи …

11 nlp

3

Кращі мови для наукових обчислень [закрито]

Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

Чи Word2Vec і Doc2Vec є представленнями розподілу або розподіленим представленням?

Я читав, що розподільне представлення базується на розподільній гіпотезі, що слова, що виникають у подібному контексті, мають схоже значення. Word2Vec і Doc2Vec моделюються відповідно до цієї гіпотези. Але в оригінальному документі навіть вони названі як Distributed representation of words and phrasesі Distributed representation of sentences and documents. Отже, чи базуються …

10 nlp word-embeddings terminology word2vec

Запитання з тегом «nlp»