Запитання з тегом «nltk»

Набір природничих мов - це бібліотека Python для обчислювальної лінгвістики.

7
Що таке "ентропія та отримання інформації"?
Я читаю цю книгу ( NLTK ), і це бентежить. Ентропія є визначається як : Ентропія - це сума ймовірності кожної мітки, що перевищує ймовірність журналу цієї ж мітки Як можна застосувати ентропію та максимальну ентропію з точки зору видобутку тексту? Чи може хтось надати мені простий, простий приклад (візуальний)?

15
Не вдалося завантажити english.pickle з nltk.data.load
При спробі завантажити punktтокенізатор ... import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') ... LookupErrorпіднято: > LookupError: > ********************************************************************* > Resource 'tokenizers/punkt/english.pickle' not found. Please use the NLTK Downloader to obtain the resource: nltk.download(). Searched in: > - 'C:\\Users\\Martinos/nltk_data' > - 'C:\\nltk_data' > - 'D:\\nltk_data' > - 'E:\\nltk_data' > - 'E:\\Python26\\nltk_data' > - …
144 python  jenkins  nltk 


15
n-грамів у пітоні, чотири, п’ять, шість грам?
Я шукаю спосіб розділити текст на n-грам. Зазвичай я б робив щось на кшталт: import nltk from nltk import bigrams string = "I really like python, it's pretty awesome." string_bigrams = bigrams(string) print string_bigrams Я знаю, що nltk пропонує лише біграми та триграми, але чи є спосіб розділити мій текст …
137 python  string  nltk  n-gram 

9
Як перевірити, чи є словом англійське слово з Python?
Я хочу перевірити в програмі Python, чи є слово в англійському словнику. Я вважаю, що інтерфейс nltk wordnet може бути шляхом, але я не маю поняття, як використовувати його для такої простої задачі. def is_english_word(word): pass # how to I implement is_english_word? is_english_word(token.lower()) Надалі я, можливо, захочу перевірити, чи є …
134 python  nltk  wordnet 


11
Як позбутися пунктуації за допомогою токенізатора NLTK?
Я тільки починаю використовувати NLTK і не зовсім розумію, як отримати список слів з тексту. Якщо я використовую nltk.word_tokenize(), я отримую список слів і розділові знаки. Мені потрібні лише слова. Як я можу позбутися пунктуації? Також word_tokenizeне працює з кількома реченнями: крапки додаються до останнього слова.
125 python  nlp  tokenize  nltk 

12
Як видалити стоп-слова за допомогою nltk або python
Тож у мене є набір даних, який я хотів би видалити стоп-слова з використання stopwords.words('english') Я намагаюся використовувати це в коді, щоб просто вийняти ці слова. У мене вже є список слів із цього набору даних, частина, з якою я боюсь, порівнює цей список і видаляє слова стоп. Будь-яка допомога …
110 python  nltk  stop-words 

7
як перевірити, яка версія nltk, scikit learn встановлена?
У скрипті оболонки я перевіряю, встановлені ці пакети чи ні, якщо вони не встановлені, то встановіть його. Тож із скриптом для оболонки: import nltk echo nltk.__version__ але він зупиняє скрипт оболонки на importчерзі в терміналі Linux намагалися бачити таким чином: which nltk що нічого не дає думати, що він встановлений. …

26
випуск проблеми з встановленням практично будь-якої бібліотеки
Мені важко використовувати pip, щоб встановити майже все. Я новачок у кодуванні, тому я подумав, що, можливо, це щось, що я робив неправильно, і вирішив легко_встановити, щоб отримати більшу частину того, що мені потрібно було зробити, що, як правило, спрацювало. Однак зараз я намагаюся завантажити бібліотеку nltk, і жоден не …
101 python  pip  nltk  easy-install 

17
Ресурс u'tokenizers / punkt / english.pickle 'не знайдено
Мій код: import nltk.data tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') Повідомлення про помилку: [ec2-user@ip-172-31-31-31 sentiment]$ python mapper_local_v1.0.py Traceback (most recent call last): File "mapper_local_v1.0.py", line 16, in <module> tokenizer = nltk.data.load('nltk:tokenizers/punkt/english.pickle') File "/usr/lib/python2.6/site-packages/nltk/data.py", line 774, in load opened_resource = _open(resource_url) File "/usr/lib/python2.6/site-packages/nltk/data.py", line 888, in _open return find(path_, path + ['']).open() File "/usr/lib/python2.6/site-packages/nltk/data.py", …
96 python  unix  nltk 

6
Python: tf-idf-cosine: щоб знайти схожість документа
Я дотримувався підручника, який був доступний у Частинах 1 та Частині 2 . На жаль, у автора не було часу для останнього розділу, який передбачав використання подібності косинусів, щоб насправді знайти відстань між двома документами. Я наслідував приклади в статті за допомогою наступного посилання від stackoverflow , включено код, згаданий …



4
Створення нового корпусу за допомогою NLTK
Я вважав, що часто відповідь на мій заголовок полягає в тому, щоб піти читати документацію, але я переглянув книгу НЛТК, але вона не дає відповіді. Я якось новачок у Python. У мене є купа .txtфайлів, і я хочу мати можливість використовувати функції корпусу, які NLTK надає для корпусу nltk_data. Я …
83 python  nlp  nltk  corpus 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.