Джерела списку слів


11

Шукаю джерело іменників, прислівників, прикметників та дієслів кількома мовами.

Я хотів би, щоб списки вже були розділені між собою, і не довелося проходити через OED (та неанглійські еквіваленти), вручну створюючи вказані списки.

Мені не дуже цікаво визначення, і я розумію, що деякі слова можуть бути декількома частинами мови - це прекрасно - слова типу "багато" можуть бути іменником або прикметником, і вони можуть бути в обох списках.

Хтось тут знає про таке джерело? Якщо ні, то хтось зможе вказати мені в правильному напрямку?

Я в порядку з тим, що формат має будь-який із наведених нижче (або подібний, якщо у людей є ідеї):

  • csv: <word>, noun (y/n), verb (y/n), adverb (y/n), adjective (y/n)
  • файли в прямому тексті, такі як "іменники", "дієслова" тощо
  • таблиця mysql
  • тощо

Відповіді:


8

Я використовував WordNet з Принстонського університету для деяких проектів. Це лексична база даних англійською мовою. Global WordNet - це розширення проекту, який намагається зробити те саме для всіх мов.

Можливо, вас також зацікавлять пов'язані проекти на веб- сайті http://wordnet.princeton.edu/wordnet/related-projects/


1
WordNet - це шлях. Всі кращі дослідники використовують це.
Ritwik Bose

4

Це може не допомогти зовсім, я не знаю. Але MediaWiki має api для перерахування всіх сторінок, що належать до певної категорії. Ви можете спробувати використовувати його на Wiktionary.org.

Примітки:

  • Кожен запит повертає лише 500 результатів. Однак наприкінці він також вказує параметр, який слід використовувати в іншому запиті, щоб отримати наступні 500 результатів.
  • Він включає все у вказаній категорії, навіть інші підкатегорії.
  • Здається, результати бувають в алфавітному порядку, хоча все, що починається з великої літери, виходить перед тим, що відбувається в малому регістрі.

Приклади:

Сподіваюся, це допомагає, це те, що я міг би придумати.


1

Я буду другою пропозицією @ текnikqa щодо wordnet, але я б запропонував вам переглянути їх API;

СТОРИТИМ : я мав курс AI, який мав частину мовного аналізу; Я використовував Perl API Wordnet, щоб автоматично знаходити три найкращі типи визначення та класифікувати фразування з цього в кінці реального часу END OF STORYTIME

Є там API для багатьох мов

FYI: Проект отримав A +

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.