Як тренувати Стенфордський парсер з Genia Corpus?

93

У мене є проблеми зі створення нової моделі для Stanford Parser.

Я також завантажив останню версію зі Стенфорда: http://nlp.stanford.edu/software/lex-parser.shtml

А ось Genia Corpus у 2 форматах, xml та ptb (Penn Treebank).

Standford Parser може тренуватися з файлами ptd; тоді я завантажив Genia Corpus, бо хочу працювати з біомедичним текстом:

~~http://categorizer.tmit.bme.hu/~illes/genia_ptb/~~ ^{(посилання більше не доступне)} (genia_ptb.tar.gz)

Потім у мене є короткий основний клас, щоб отримати представлення залежності одного біомедичного речення:

    String treebankPath = "/stanford-parser-2012-05-22/genia_ptb/GENIA_treebank_v1/ptb";

    Treebank tr = op.tlpParams.diskTreebank();
    tr.loadPath(treebankPath);  
    LexicalizedParser lpc=LexicalizedParser.trainFromTreebank(tr,op);

Я пробував різні способи, але завжди отримую однаковий результат.

У останньому рядку у мене помилка Це мій вихід:

Currently Fri Jun 01 15:02:57 CEST 2012
Options parameters:
useUnknownWordSignatures 2
smoothInUnknownsThreshold 100
smartMutation false
useUnicodeType false
unknownSuffixSize 1
unknownPrefixSize 1
flexiTag true
useSignatureForKnownSmoothing false
parserParams edu.stanford.nlp.parser.lexparser.EnglishTreebankParserParams
forceCNF false
doPCFG true
doDep false
freeDependencies false
directional true
genStop true
distance true
coarseDistance false
dcTags false
nPrune false
Train parameters: smooth=false PA=true GPA=false selSplit=true (400.0; deleting [VP^SQ, VP^VP, VP^SINV, VP^NP]) mUnary=1 mUnaryTags=false sPPT=false tagPA=true tagSelSplit=false (0.0) rightRec=true leftRec=false collinsPunc=false markov=true mOrd=2 hSelSplit=true (10) compactGrammar=3 postPA=false postGPA=false selPSplit=false (0.0) tagSelPSplit=false (0.0) postSplitWithBase=false fractionBeforeUnseenCounting=0.5 openClassTypesThreshold=50 preTransformer=null taggedFiles=null
Using EnglishTreebankParserParams splitIN=4 sPercent=true sNNP=0 sQuotes=false sSFP=false rbGPA=false j#=false jJJ=false jNounTags=false sPPJJ=false sTRJJ=false sJJCOMP=false sMoreLess=false unaryDT=true unaryRB=true unaryPRP=false reflPRP=false unaryIN=false sCC=1 sNT=false sRB=false sAux=2 vpSubCat=false mDTV=2 sVP=3 sVPNPAgr=false sSTag=0 mVP=false sNP%=0 sNPPRP=false dominatesV=1 dominatesI=false dominatesC=false mCC=0 sSGapped=4 numNP=false sPoss=1 baseNP=1 sNPNNP=0 sTMP=1 sNPADV=1 cTags=true rightPhrasal=false gpaRootVP=false splitSbar=0 mPPTOiIN=0
Binarizing trees...done. Time elapsed: 141 ms
Extracting PCFG...done. Time elapsed: 56 ms
Compiling grammar...done Time elapsed: 1 ms
Extracting Lexicon...Exception in thread "main" edu.stanford.nlp.util.ReflectionLoading$ReflectionLoadingException: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:39)
    at edu.stanford.nlp.parser.lexparser.BaseLexicon.initializeTraining(BaseLexicon.java:335)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.getParserFromTreebank(LexicalizedParser.java:800)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:226)
    at edu.stanford.nlp.parser.lexparser.LexicalizedParser.trainFromTreebank(LexicalizedParser.java:237)
    at ABravoDemo.main(ABravoDemo.java:35)
Caused by: edu.stanford.nlp.util.MetaClass$ClassCreationException: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:353)
    at edu.stanford.nlp.util.MetaClass.createInstance(MetaClass.java:370)
    at edu.stanford.nlp.util.ReflectionLoading.loadByReflection(ReflectionLoading.java:37)
    ... 5 more
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer
    at java.net.URLClassLoader$1.run(URLClassLoader.java:200)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:188)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:303)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:248)
    at java.lang.ClassLoader.loadClassInternal(ClassLoader.java:316)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:169)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.construct(MetaClass.java:119)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:192)
    at edu.stanford.nlp.util.MetaClass$ClassFactory.<init>(MetaClass.java:53)
    at edu.stanford.nlp.util.MetaClass.createFactory(MetaClass.java:349)
    ... 7 more

Як я міг створити нову модель за допомогою цього корпусу?

java nlp stanford-nlp

— Натан
джерело

2

перевірте: stackoverflow.com/a/3158157/2128327

— Khaled.K

Можливий дублікат того, як я можу створити власний тренувальний корпус для тендер-стригерів?

— Андремоній

5

Справжня причина - "java.lang.ClassNotFoundException: edu.stanford.nlp.parser.lexparser.EnglishUnknownWordModelTrainer". Чи має клас nlp.stanford.edu/software/… цей клас? На даний момент я не можу завантажити 900 Мб, щоб перевірити.

— andrucz

1

Спробуйте це відео, воно може вам допомогти, youtube.com/watch?v=w4rWpvBjBRI

— Laxman G

1

Як заявив andrucz у своєму коментарі, справжня причина вашої проблеми, мабуть, походить із відсутнього класу.

Спробуйте перевірити, чи правильно ви імпортували вашу бібліотеку (і переконайтеся, що вона містить клас EnglishUnknownWordModelTra‌inerу edu.stanford.nlp.parser.lexparser.

(Якщо ви використовуєте Maven, переконайтеся, що ви правильно додали залежність - швидкий пошук Google в цьому:: Stanford Parser Maven Repo )

— Максиміліан Ширм
джерело

1

Чи правильно встановлена бібліотека NLP? Перевірте в журналах, щоб переконатися у відсутності помилок. У більшості випадків ця проблема виникає, коли бібліотека Stanford nltk не встановлена належним чином.

Швидкий спосіб перевірити - запустивши графічний інтерфейс, щоб перевірити аналізатор, якщо це працює успішно, то бібліотека встановлена правильно, інакше, якщо це видає помилки, то ви знаєте, що ваша установка була поганою.

Веб-сайт Стенфорда також згадує про це:

Якщо ви новачок в синтаксичному розборі, ви можете почати, запустивши графічний інтерфейс, щоб випробувати парсер. Скрипти включаються для Linux (lexparser-gui.sh) та Windows (lexparser-gui.bat). Погляньте на документацію пакета Javadoc lexparser та документацію на клас LexicalizedParser. (Наведіть веб-браузер на файл index.html у включеному каталозі javadoc та перейдіть до цих елементів.) Подивіться на поширені запитання для аналізу, щоб отримати відповіді на поширені запитання. Якщо нічого з цього не допомагає, перегляньте наші вказівки електронною поштою щодо інструкцій, як звернутися до нас для подальшої допомоги.

— Бінні Пеза
джерело

0

Перевірте, чи правильно ви імпортували бібліотеку, і переконайтеся, що вона містить клас {EnglishUnknownWordModelTra‌ iner}, а також переконайтеся, що версія, яку ви завантажили, правильно працює з Genia Corps.

— Дівія Мішра
джерело