Мені цікаво, як позначити (тег) речення / абзаци / документи з doc2vec в gensim - з практичної точки зору.
Чи потрібно мати кожне речення / абзац / документ із власною унікальною міткою (наприклад, "Sent_123")? Це здається корисним, якщо ви хочете сказати, "які слова чи речення найбільш схожі на одне конкретне речення з позначкою" Sent_123 ".
Чи можете ви мітки повторюватись на основі вмісту? Наприклад, якщо кожне речення / абзац / документ стосується певного продукту (а для даного продукту є кілька пропозицій / абзаців / документів), ви можете позначити речення на основі цього продукту, а потім обчислити схожість між словом чи речення та ця мітка (що, напевно, було б середнім серед усіх тих речень, які мали відношення до продукту)?