Передумови: Я вивчаю розділ 6 «Глибоке навчання» Іона Гудфллоу та Йошуа Бенджо та Аарона Курвіля. У розділі 6.2.2.2 (сторінки 182 з 183, які можна переглянути тут ) використання сигмоїдів для виведення мотивовано.
Підсумовуючи частину матеріалу, вони дозволяють
Ми опускаємо на даний момент залежність від щоб обговорити, як визначити розподіл ймовірностей по використовуючи значення . Сигмоїд можна мотивувати, побудувавши ненормалізований розподіл ймовірностей , який не дорівнює 1. Потім ми можемо розділити на відповідну константу для отримання дійсного розподілу ймовірності. Якщо ми почнемо з припущення, що ненормалізовані ймовірності журналу є лінійними в та , ми можемо експоненціювати для отримання ненормалізованих ймовірностей. Потім нормалізуємо, щоб побачити, що це дає розподіл Бернуллі, керований сигмоїдним перетворенням z:
Запитання: Мене плутають дві речі, особливо перша:
- Звідки походить початкове припущення? Чому ненормалізована ймовірність журналу лінійна в та z ? Чи може хтось подати мені якусь інформацію про те, як автори почали з журналу ˜ P ( y ) = y z ?
- Як слідує останній рядок?