Q1: "[..] чи є англійські стовбурові слова взагалі корисними сьогодні? Оскільки ми маємо безліч інструментів лематизації для англійської мови"
Так. Штамби набагато простіші, менші та, як правило, швидші за лематизатори, і для багатьох застосувань їх результати є досить хорошими . Використання лематизатора для цього - марне витрачання ресурсів. Розглянемо, наприклад, зменшення розмірності пошуку інформації. Ви замінюєте весь привід / водіння по DRIV в обох обшукали документи і запит. Ви не хвилює , якщо це диск або DRIV або x17a $ до тих пір , як це кластери inflectionally родинні слова разом.
Q2: "[..] як нам рухатись до створення надійних лемматизаторів, які можуть брати на себе попередню обробку для ноніфікації, вербіфікації, ад’єктифікації та адвербіфікації?
Яке ваше визначення леми, воно включає чи висновок ( привід - водій ) або тільки перегин ( привід - диски - поїхало )? Чи враховує вона семантику?
Якщо ви хочете включити деривацію (яку більшість людей сказали б, включає іменники, що дієслівні тощо), тоді майте на увазі, що деривація набагато нерегулярніша, ніж флексія. Є багато ідіосинкратій, прогалин і т. Д. Ви дійсно хочете, щоб змінити ( змінити поїзди ) і змінити (як монети) мати однакову лему? Якщо ні, де ви проводите межу? Як щодо нерва - розбудувати , землю - розкопати - землянин ... Це дійсно залежить від програми.
Якщо взяти до уваги семантику ( банк буде позначений як банк-гроші чи банк-річка залежно від контексту), наскільки глибоко ви заглиблюєтесь (чи відрізняєте банк-установу від банку )? Деякі програми можуть взагалі не піклуватися про це, деякі, можливо, захочуть розрізнити базову семантику, деякі можуть захотіти, щоб вона була тонкою.
Запитання 3: "Як завдання лематизації можна легко масштабувати до інших мов, що мають подібні морфологічні структури, як англійська?"
Що ви маєте на увазі під "подібними морфологічними структурами, як англійська"? Англійська мова має дуже мало флексійної морфології. Є хороші лематизатори для мов інших морфологічних типів (справді флексійних, аглютинативних, шаблонних, ...).
За винятком можливих агглютинативних мов, я б стверджував, що таблиця пошуку (скажімо, стиснута триє) є найкращим рішенням. (Можливо, з деякими правилами резервного копіювання для невідомих слів, таких як власні імена). Пошук виконується якоюсь неоднозначністю (починаючи від тривіальної - візьміть першу або першу, яка відповідає тегу POS-слов, до набагато складнішої). Більш складні неоднозначності, як правило, є контрольованими стохастичними алгоритмами (наприклад, TreeTagger або Faster ), хоча також було зроблено поєднання машинного навчання та створених вручну правил (див., Наприклад, це ).
Очевидно, що для більшості мов ви не хочете створювати таблицю пошуку вручну, а натомість генеруєте її з опису морфології цієї мови. Щодо флективних мов, ви можете пройти інженерний шлях хайіча для чеської або Міхеєва для російської, або, якщо ви сміливий, ви використовуєте дворівневу морфологію. Або ви можете зробити щось середнє, наприклад, Хана (я) (зауважте, що це все повні морфологічні аналізатори, що включають лематизацію). Або ви можете навчитися лематизатору без нагляду а-ля Яровський та Вікентовський , можливо, з ручною подальшою обробкою, виправляючи найпоширеніші слова.
Варіантів занадто багато, і насправді все залежить від того, що ви хочете зробити з результатами.