Використання Vowpal Wabbit для NER


9

Vowpal Wabbit (VW), мабуть, підтримує функцію тегування послідовності через SEARN . Проблема полягає в тому, що я не можу ніде знайти докладний список параметрів з поясненнями та з деякими прикладами. Найкраще, що я міг знайти, це запис у блозі Зінкова з дуже коротким прикладом. Головна сторінка Вікі майже НЕ згадує SEARN.

У перевіреному вихідному коді я знайшов демонстраційну папку з деякими зразками даних NER. На жаль, сценарій, на якому виконуються всі тести, не показує, як запустити ці дані. Принаймні, це було досить інформативно, щоб побачити очікуваний формат: майже такий же, як і стандартний формат даних VW, за винятком того, що записи розділені порожніми рядками (це важливо).

Моє поточне розуміння полягає у виконанні наступної команди:

cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw

де

--searn 25 - загальна кількість міток NER (?)

--searn_task sequence - завдання тегів послідовності (?)

--searn_passes_per_policy 2 - не ясно, що це робить

Інші параметри стандартні для VW і не потребують додаткових пояснень. Можливо, є більше параметрів, специфічних для SEARN? Яке їх значення та вплив? Як їх настроїти? Якісь великі правила?

Будь-які вказівки на приклади будуть оцінені.

Відповіді:


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.