Запитання з тегом «tokenize»

Токенізація - це акт розбиття рядка на дискретні елементи, які називаються лексемами.


16
Проаналізуйте (розділити) рядок на C ++, використовуючи роздільник рядків (стандартний C ++)
Я розбираю рядок у C ++, використовуючи наступне: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } Розбір з одним роздільником лінійки добре. Але що робити, якщо я хочу використовувати рядок як роздільник. Приклад: Я хочу розділити: scott>=tiger з >=розмежувачем, …
361 c++  parsing  split  token  tokenize 



10
Сканер проти StringTokenizer vs. String.Split
Щойно я дізнався про клас сканування Java, і тепер мені цікаво, як він порівнює / конкурує зі StringTokenizer та String.Split. Я знаю, що StringTokenizer і String.Split працюють лише на Strings, тож чому я хочу використовувати сканер для рядка? Чи сканер просто призначений для купівлі-розкрутки для розщеплення?

4
Шукаєте чіткого визначення того, що таке «токенізатор», «парсер» та «лексери» та як вони пов’язані між собою та використовуються?
Я шукаю чіткого визначення того, що таке "токенізатор", "аналізатор" і "лексер" і як вони пов'язані один з одним (наприклад, чи використовує аналізатор токенізатор чи навпаки)? Мені потрібно створити програму буде проходити через вихідні файли c / h для витягування декларації даних та визначень. Я шукав приклади і можу знайти деяку …
151 parsing  lexer  tokenize 

5
Чи може рядок коду Python знати рівень вкладеності відступів?
З чогось такого: print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) Я хотів би отримати щось подібне: 1 2 3 Чи може код читати себе таким чином? Все, що я хочу, - це висновок з більш вкладених частин коду, які будуть більш вкладеними. Таким же чином, як це полегшує читання коду, це зробить висновок простішим …


11
Як позбутися пунктуації за допомогою токенізатора NLTK?
Я тільки починаю використовувати NLTK і не зовсім розумію, як отримати список слів з тексту. Якщо я використовую nltk.word_tokenize(), я отримую список слів і розділові знаки. Мені потрібні лише слова. Як я можу позбутися пунктуації? Також word_tokenizeне працює з кількома реченнями: крапки додаються до останнього слова.
125 python  nlp  tokenize  nltk 

13
Розбиття рядка на кілька рядків в Oracle
Я знаю, що на це якимось чином відповіли PHP та MYSQL, але мені було цікаво, чи може хтось навчити мене найпростішого підходу до розбиття рядка (розділеного комами) на кілька рядів у Oracle 10g (бажано) та 11g. Таблиця така: Name | Project | Error 108 test Err1, Err2, Err3 109 test2 …
104 sql  string  oracle  plsql  tokenize 

4
Як отримати токен з Lucene TokenStream?
Я намагаюся використовувати Apache Lucene для токенізації, і мене бентежить процес отримання токенів у TokenStream. Найгірше те, що я переглядаю коментарі в JavaDocs, які стосуються мого питання. http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/analysis/TokenStream.html#incrementToken%28%29 Якось AttributeSourceпередбачається використовувати а, а не Tokens. Я абсолютно втрачений. Хтось може пояснити, як отримати токен-подібну інформацію з TokenStream?
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.