Чи було скопійовано повідомлення про найсучасніший результат використання векторів абзацу для аналізу настроїв?

Мене вразили результати в роботі ICML 2014 « Розподілені представлення вироків і документів » Ле та Міколова. Метод, який вони описують, називається "векторами абзацу", вивчає непідконтрольне уявлення довільно довгих абзаців / документів, заснованих на розширенні моделі word2vec. У статті представлено найсучасніші показники аналізу настроїв за допомогою цієї методики.

Я сподівався оцінити цю методику за іншими проблемами класифікації тексту, як альтернативу традиційному зображенню мішок слів. Однак я натрапив на повідомлення другого автора з теми в групі Google word2vec, яка дала мені паузу:

Я намагався відтворити результати Quoc протягом літа; Я міг отримати показники помилок на наборі даних IMDB приблизно до 9,4% - 10% (залежно від того, наскільки нормальною була нормалізація тексту). Однак я не зміг наблизитися до того, що Quoc повідомив у роботі (7,4% помилки, це величезна різниця) ... Звичайно, ми також запитали Quoc про код; він пообіцяв опублікувати його, але поки нічого не сталося. ... Я починаю думати, що результати Квока насправді не відтворюються.

Хтось ще мав успіх у відтворенні цих результатів?

— bskaggs
джерело

Чи змінилася ця ситуація ще? Я знаю, що Gensim реалізував версію doc2vec (параметри / вектори документів), див.: Radimrehurek.com/gensim/models/doc2vec.html, але жодної спроби відтворення результатів у цитованій тут роботі не було.

— Докторамбієнт

Так, були спроби відтворити результати паперу за допомогою gensim : див. Ноутбук doc2vec IPython .

— Радім

Зноска на http://arxiv.org/abs/1412.5335 (один з авторів - Томаш Міколов)

У наших експериментах, щоб відповідати результатам (Le & Mikolov, 2014), ми дотримувались пропозиції Quoc Le використовувати ієрархічну softmax замість негативної вибірки. Однак це дає результат точності 92,6% лише тоді, коли дані тренувань та тестів не змішуються. Таким чином, ми вважаємо цей результат недійсним.

— Михайло Коробов
джерело

Я не розумію, чому "не перетасував" ==> недійсний. Чи не існує чітко визначеного розбиття між набором поїздів / випробувань? Отже, що тест поїзд / тест залежить від того, як ви переміщуєте (оригінальний) набір даних? Порядок тестового набору не повинен мати значення (немає динамічної оцінки, правда?). І порядок тренувального набору теж не має великого значення ...

— capybaralet

@ user2429920 Якщо вони отримують розбіжності, то очевидно, що порядок має значення.

— JAB