Що таке температура в LSTM (і нейронних мережах загалом)?


Відповіді:


28

Температура - це гіперпараметр LSTM (і нейронних мереж, як правило), який використовується для контролю випадковості прогнозів шляхом масштабування логітів перед застосуванням softmax. Наприклад, в TensorFlow в Magenta реалізації в LSTMs, температура показує , наскільки розділити логит на перед обчисленням SoftMax.

Коли температура дорівнює 1, ми обчислюємо софтмакс безпосередньо на логітах (немасштабний вихід попередніх шарів) і, використовуючи температуру 0,6, модель обчислює софтмакс на , в результаті чого збільшується велике значення. Виконання softmax на більших значеннях робить LSTM більш впевненим (потрібно менше введення для активації вихідного шару), але також більш консервативним у своїх зразках (менша ймовірність вибірки з малоймовірних кандидатів). Використання більш високої температури призводить до більш м'якого розподілу ймовірностей по класам і робить RNN більш "легко збудженим" за зразками, що призводить до більшої різноманітності, а також більше помилок .логiтс0,6

Нейронні мережі створюють ймовірності класів з вектором logit де , виконуючи функцію softmax для створення вектора ймовірності , порівнюючи з іншими logits.zz=(z1,,zн)q=(q1,,qн)zi

(1)qi=досвід(zi/Т)jдосвід(zj/Т)

де - температурний параметр, зазвичай встановлений на 1.Т

Функція softmax нормалізує кандидатів при кожній ітерації мережі на основі їх експоненціальних значень, забезпечуючи, щоб виходи в мережі були між нулем і одиницею на кожному кроці часу.

Тому температура підвищує чутливість до кандидатів з низькою ймовірністю. У LSTMs кандидатом або зразком може бути лист, слово або музична нота, наприклад:

Для високих температур ( ) всі [зразки] мають майже однакову ймовірність і чим нижча температура, тим більше очікувана винагорода впливає на ймовірність. При низькій температурі ( ) ймовірність [вибірки] з найбільшою очікуваною винагородою має тенденцію до 1.ττ0+

- зі статті Вікіпедії про функцію softmax

Довідково

Гінтон, Джеффрі, Оріол Віньялс і Джефф Дін. "Перегортання знань в нейронній мережі". arXiv передрук arXiv: 1503.02531 (2015). arXiv


3
Це алюзія на розподіл Больцмана (або розподілу Гіббса) - розподіл ймовірностей, що використовується в статистичній механіці.
mc2
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.