З практичної точки зору ...
LDA починається з введення сумки слів, яка враховує, які слова зустрічаються в документах, але не звертає уваги на безпосередній контекст слова. Це означає, що слова можуть з’являтися в будь-якому місці документа та в будь-якому порядку, що викреслює певний рівень інформації. Навпаки, word2vec - це все про контекст, у якому використовується слово - хоча, можливо, не точний порядок.
"Теми" LDA - це математична конструкція, і ви не повинні плутати їх з актуальними людськими темами. Ви можете закінчити теми, які не мають людської інтерпретації - вони більше схожі на артефакти процесу, ніж на фактичні теми, - і ви можете описувати теми на різних рівнях абстракції, включаючи теми, які в основному охоплюють ту саму людську тему. Це трохи схоже на читання чайних листків.
Я вважаю LDA корисною для вивчення даних, але не настільки корисна для надання рішення, але ваш пробіг може відрізнятися.
Word2vec взагалі не створює теми безпосередньо. Він проектує слова у просторовий простір на основі подібного використання, тому у нього можуть бути власні сюрпризи в частині слів, які ви вважаєте виразними - або навіть протилежними - можуть знаходитися поруч один з одним у просторі.
Ви можете використовувати або визначити, чи є слова "схожими". З LDA: чи слова мають однакові ваги в одних і тих же темах. З word2vec: чи близькі вони (якоюсь мірою) у вбудованому просторі.
Ви можете використовувати або для визначення, чи схожі документи. З LDA ви б шукали подібну суміш тем, а з word2vec ви зробили б щось на зразок додавання векторів слів документа. ("Документ" може бути реченням, абзацом, сторінкою або цілим документом.) Doc2vec - це модифікована версія word2vec, яка дозволяє безпосередньо порівнювати документи.
У той час як LDA викидає деяку контекстуальну інформацію за допомогою підходу, який містить сумні слова, у неї є теми (або "теми"), яких у word2vec немає. Тому просто використовувати doc2vec, щоб сказати: "Покажіть мені документи, подібні до цього", тоді як з LDA просто сказати: "Покажіть мені документи, де тема А є видною". (Знову ж таки, знаючи, що "тема А" виникає з математичного процесу у ваших документах, і ви потім з'ясовуєте, якій людській темі це найбільше відповідає.)