У статті під назвою " Глибоке навчання та принцип інформації " автори вказують у розділі II А) наступне:
Одиничні нейрони класифікують лише лінійно відокремлювані входи, оскільки вони можуть реалізовувати лише гіперплани у своєму вхідному просторі . Гіперплани можуть оптимально класифікувати дані, коли входи є умовнонезалежними.
Щоб показати це, вони отримують наступне. Використовуючи теорему Байєса, вони отримують:
(1)
Де - вхід, - клас, а - передбачуваний клас (я припускаю, не визначено). Продовжуючи, вони заявляють, що:
(2)
Де розмірність вхідного і я не впевнений , що (знову ж , як не визначені). Розглядаючи сигмоїдальний нейрон, за допомогою функції сигмоїдної активації і попередньої активації , після вставки (2) в (1) отримуємо оптимальні значення ваги і , коли вхідні значення .
Тепер до моїх запитань. Я розумію, як вставлення (2) у (1) призводить до оптимальної ваги та вхідних значень . Я не розумію, однак, це:
- Як (1) виведений за допомогою теореми Байєса?
- Як походить (2)? Що таке ? У чому сенс цього? Я припускаю, що це має щось спільне з умовною незалежністю
- Навіть якщо розміри х є умовно незалежними, як можна констатувати, що він дорівнює його масштабній ймовірності? (тобто як ви можете вказати ?)
EDIT: Змінна є змінною двійкового класу. З цього я припускаю, що - клас "інший". Це вирішило б питання 1. Чи згодні ви?