2
Категоризація тексту: поєднання різного роду ознак
Проблема, яку я вирішую, - класифікація коротких текстів на кілька класів. Мій сучасний підхід полягає у використанні зважених термінальних частот tf-idf та вивченні простого лінійного класифікатора (логістична регресія). Це працює досить добре (близько 90% макро F-1 на тестовому наборі, майже 100% на навчальному наборі). Великою проблемою є невидимі слова / …