Vowpal Wabbit (VW), мабуть, підтримує функцію тегування послідовності через SEARN . Проблема полягає в тому, що я не можу ніде знайти докладний список параметрів з поясненнями та з деякими прикладами. Найкраще, що я міг знайти, це запис у блозі Зінкова з дуже коротким прикладом. Головна сторінка Вікі майже НЕ згадує SEARN.
У перевіреному вихідному коді я знайшов демонстраційну папку з деякими зразками даних NER. На жаль, сценарій, на якому виконуються всі тести, не показує, як запустити ці дані. Принаймні, це було досить інформативно, щоб побачити очікуваний формат: майже такий же, як і стандартний формат даних VW, за винятком того, що записи розділені порожніми рядками (це важливо).
Моє поточне розуміння полягає у виконанні наступної команди:
cat train.txt | vw -c --passes 10 --searn 25 --searn_task sequence \
--searn_passes_per_policy 2 -b 30 -f twpos.vw
де
--searn 25
- загальна кількість міток NER (?)
--searn_task sequence
- завдання тегів послідовності (?)
--searn_passes_per_policy 2
- не ясно, що це робить
Інші параметри стандартні для VW і не потребують додаткових пояснень. Можливо, є більше параметрів, специфічних для SEARN? Яке їх значення та вплив? Як їх настроїти? Якісь великі правила?
Будь-які вказівки на приклади будуть оцінені.