Мене вразили результати в роботі ICML 2014 « Розподілені представлення вироків і документів » Ле та Міколова. Метод, який вони описують, називається "векторами абзацу", вивчає непідконтрольне уявлення довільно довгих абзаців / документів, заснованих на розширенні моделі word2vec. У статті представлено найсучасніші показники аналізу настроїв за допомогою цієї методики.
Я сподівався оцінити цю методику за іншими проблемами класифікації тексту, як альтернативу традиційному зображенню мішок слів. Однак я натрапив на повідомлення другого автора з теми в групі Google word2vec, яка дала мені паузу:
Я намагався відтворити результати Quoc протягом літа; Я міг отримати показники помилок на наборі даних IMDB приблизно до 9,4% - 10% (залежно від того, наскільки нормальною була нормалізація тексту). Однак я не зміг наблизитися до того, що Quoc повідомив у роботі (7,4% помилки, це величезна різниця) ... Звичайно, ми також запитали Quoc про код; він пообіцяв опублікувати його, але поки нічого не сталося. ... Я починаю думати, що результати Квока насправді не відтворюються.
Хтось ще мав успіх у відтворенні цих результатів?