Проблема, яку я вирішую, - класифікація коротких текстів на кілька класів. Мій сучасний підхід полягає у використанні зважених термінальних частот tf-idf та вивченні простого лінійного класифікатора (логістична регресія). Це працює досить добре (близько 90% макро F-1 на тестовому наборі, майже 100% на навчальному наборі). Великою проблемою є невидимі слова / n-грам.
Я намагаюся вдосконалити класифікатор, додаючи інші функції, наприклад, вектор фіксованого розміру, обчислений за допомогою подібності розподілу (як обчислюється word2vec) або інших категоричних особливостей прикладів. Моя ідея полягала в тому, щоб просто додати функції до функцій рідкого введення з пакету слів. Однак це призводить до гірших показників на тестовому і навчальному наборі. Додаткові можливості самі по собі дають близько 80% F-1 на тестовому наборі, тому вони не є сміттям. Масштабування функцій також не допомогло. Моє сучасне мислення полягає в тому, що такі особливості не добре поєднуються з (рідкісним) мішком функцій слів.
Отже, питання: якщо припустити, що додаткові функції надають додаткову інформацію, який найкращий спосіб їх включити? Чи можна було б підготувати окремі класифікатори та поєднати їх у якомусь ансамблевому творі (це, мабуть, мав би той недолік, що жодна взаємодія між особливостями різних класифікаторів не може бути зафіксована)? Чи є інші складніші моделі, які я повинен розглянути?