Одним з гіперпараметрів для мереж LSTM є температура. Що це?
Одним з гіперпараметрів для мереж LSTM є температура. Що це?
Відповіді:
Температура - це гіперпараметр LSTM (і нейронних мереж, як правило), який використовується для контролю випадковості прогнозів шляхом масштабування логітів перед застосуванням softmax. Наприклад, в TensorFlow в Magenta реалізації в LSTMs, температура показує , наскільки розділити логит на перед обчисленням SoftMax.
Коли температура дорівнює 1, ми обчислюємо софтмакс безпосередньо на логітах (немасштабний вихід попередніх шарів) і, використовуючи температуру 0,6, модель обчислює софтмакс на , в результаті чого збільшується велике значення. Виконання softmax на більших значеннях робить LSTM більш впевненим (потрібно менше введення для активації вихідного шару), але також більш консервативним у своїх зразках (менша ймовірність вибірки з малоймовірних кандидатів). Використання більш високої температури призводить до більш м'якого розподілу ймовірностей по класам і робить RNN більш "легко збудженим" за зразками, що призводить до більшої різноманітності, а також більше помилок .
Нейронні мережі створюють ймовірності класів з вектором logit де , виконуючи функцію softmax для створення вектора ймовірності , порівнюючи з іншими logits.
де - температурний параметр, зазвичай встановлений на 1.
Функція softmax нормалізує кандидатів при кожній ітерації мережі на основі їх експоненціальних значень, забезпечуючи, щоб виходи в мережі були між нулем і одиницею на кожному кроці часу.
Тому температура підвищує чутливість до кандидатів з низькою ймовірністю. У LSTMs кандидатом або зразком може бути лист, слово або музична нота, наприклад:
Для високих температур ( ) всі [зразки] мають майже однакову ймовірність і чим нижча температура, тим більше очікувана винагорода впливає на ймовірність. При низькій температурі ( ) ймовірність [вибірки] з найбільшою очікуваною винагородою має тенденцію до 1.
- зі статті Вікіпедії про функцію softmax
Гінтон, Джеффрі, Оріол Віньялс і Джефф Дін. "Перегортання знань в нейронній мережі". arXiv передрук arXiv: 1503.02531 (2015). arXiv