Кількість епох у впровадженні Gensim Word2Vec


14

У реалізації Word2Vec є iterпараметрgensim

клас gensim.models.word2vec.Word2Vec (речення = Немає, розмір = 100, альфа = 0,025, вікно = 5, min_count = 5, max_vocab_size = Немає, зразок = 0, насіння = 1, робітники = 1, min_alpha = 0,0001, sg = 1, hs = 1, мінус = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = Немає, sorted_vocab = 1)

що вказує кількість епох, тобто:

iter = кількість ітерацій (епох) над корпусом.

Хтось знає, чи це допомагає вдосконалити модель над корпусом?

Чи є якась причина, чому iterза замовчуванням встановлено значення 1? Немає великого ефекту в збільшенні немає. епох?

Чи є якась наукова / емпірична оцінка того, як встановити "ні". епох?

На відміну від завдання класифікації / регресії, метод пошуку в сітці насправді не працює, оскільки вектори генеруються без нагляду, а цільова функція - це просто ієрархічна софтмакс, або негативна вибірка.

Чи є механізм ранньої зупинки, щоб скоротити ні. епох, коли сходяться вектори? І чи може сходитися ієрархічна софтмакс чи негативна вибіркова мета?

Відповіді:


5

Збільшення кількості епох, як правило, приносить користь якості подання слова. В експериментах я робив те, що метою було використання слова вбудовування як функції класифікації тексту, встановивши епохи до 15 замість 5, підвищила ефективність.


2

Я подивився тут і виявив, що значення за замовчуванням змінилося з 1 на 5. Мабуть, автори вважають, що більше епох покращить результати .

Я ще не можу сказати з досвіду.


2

Я навчив свою модель w2v на Google News 300 за [2, 10, 100] епох, а найкраща - на 10 епох. Після всього цього очікування я був вражений, що 100 епох було погано.

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

Збільшення кількості ітера (кількість епох) різко збільшує час навчання. Word2Vec дає якісні результати лише в тому випадку, якщо ви подаєте документи з величезною кількістю, тому циклічне обмінювання їх навіть двічі не є розумним, хоча це фактично робить вбудовані слова більш точними.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.