Темою моєї докторської дисертації було розкрити властивості нейромереж, зокрема нейронних мереж, що рухаються вперед, з одним або двома прихованими шарами.
Я візьму на себе завдання вияснити всім, що означають терміни ваги та зміщення в одношаровій нейронній мережі подачі вперед. Будуть розглянуті дві різні перспективи: параметрична та ймовірнісна.
Далі я припускаю, що всі вхідні значення, що надаються кожному вхідному нейрону, були нормалізовані на інтервал (0,1) шляхом лінійного масштабування ( ), де два коефіцієнти та вибираються для вхідної змінної, так що . Я роблю різницю між змінними в реальному числі та переліченими змінними (з булевою змінною як особливою переліченою змінною випадку):xinput=α⋅x+βαβxinput∈(0,1)
- Змінна з дійсною цифрою надається у вигляді десяткового числа між і після лінійного масштабування.01
- Перерахована змінна кількість днів тижня (понеділок, вівторок тощо) представлена вхідними вузлами, при цьому - кількість вигідних результатів, тобто за кількість днів у тиждень.vv7
Таке представлення ваших вхідних даних потрібно для того, щоб можна було інтерпретувати (абсолютне значення) розмір ваг у вхідному шарі.
Параметричне значення:
- чим більша абсолютна величина ваги між вхідним нейроном і прихованим нейроном, тим важливішою є ця змінна для "стрільби" цього конкретного прихованого вузла. Ваги, близькі до
означають, що вхідне значення настільки ж добре, як і нерелевантне. 0
- вага від прихованого вузла до вихідного вузла вказує на те, що зважена ампліфікація вхідних змінних, які в абсолютному сенсі найбільше посилюються цим прихованим нейроном, що вони сприяють або приглушують конкретний вихідний вузол. Знак ваги вказує на заохочення (позитивне) або гальмування (негативне).
- третя частина, не явно представлена в параметрах нейронної мережі, є багатофакторним розподілом вхідних змінних. Тобто, як часто трапляється, що значення надається для вхідного вузла - з дійсно великою вагою для прихованого вузла ?132
- термін зміщення - це лише константа перекладу, яка зміщує середнє значення прихованого (або вихідного) нейрона. Він діє як зсув , представлений вище.β
Обґрунтування повернення вихідного нейрона : які приховані нейрони мають найвищі значення абсолютної ваги при їх з'єднанні з вихідними нейронами? Як часто активація кожного прихованого вузла стає близькою до (припускаючи функції активації сигмоїдів). Я говорю про частоти, виміряні на тренувальному наборі. Якщо бути точним: яка частота, з якою приховані вузли і , з великими вагами до вхідних змінних і , що ці приховані вузли і близькі до1iltsil1? Кожен прихований вузол по визначенню поширює середньозважене середнє значення своїх вхідних значень. З якими вхідними змінними кожен прихований вузол в першу чергу сприяє - або гальмує? Також пояснює багато, абсолютну різницю ваг між вагами, які випромінюють із прихованого вузла до двох вихідних вузлів і .Δj,k=∣wi,j−wi,k∣ijk
Чим важливіші приховані вузли - це вихідний вузол (розмовляємо по частотах, над навчальним набором), які «вхідні ваги вхідні частоти» є найбільш важливими? Тоді ми зупиняємося на значенні параметрів нейронних мереж подачі вперед.
Імовірнісна інтерпретація:
Імовірнісна перспектива означає розглядати класифікацію нейронної мережі як класифікатора Байєса (оптимального класифікатора з теоретично визначеним найнижчим коефіцієнтом помилок). Які вхідні змінні впливають на результат нейронної мережі - і як часто? Розглядайте це як імовірнісний сенсивітаційний аналіз. Як часто зміна однієї вхідної змінної може призвести до різної класифікації? Як часто вхідний нейрон має потенційний вплив на те, який результат класифікації стає найбільш імовірним, маючи на увазі, що відповідний вихідний нейрон досягає найвищого значення?xinput
Індивідуальний випадок - шаблон
Коли зміна введеного нейронного нейрона може призвести до зміни найбільш ймовірної класифікації, ми говоримо, що ця змінна має потенційний вплив . При зміні результатів перерахованої змінної (зміна буднього дня з понеділка до вівторка або будь-який інший будній день) ), і найімовірніші зміни результату, то перелічена змінна може мати потенційний вплив на результат класифікації.xinput[1,0,0,0,0,0,0][0,1,0,0,0,0,0]
Коли ми зараз враховуємо ймовірність цієї зміни, тоді ми говоримо про очікуваний вплив . Яка ймовірність спостереження за змінною вхідною змінною такою, що вхідний регістр змінює результат, враховуючи значення всіх інших входів ? Очікуване вплив відноситься до очікуваного значення , з , а саме . Тут - вектор усіх вхідних значень, крім входу . Майте на увазі, що перелічена змінна представлена низкою вхідних нейронів. Ці можливі результати тут розглядаються як одна змінна. x i n p u t E ( x i n p u t ∣ x - i n p u t ) x - i n p u t x i n p u txinputxinputE(xinput∣x−input)x−inputxinput
Глибокий нахил - і значення параметрів NN
Застосовуючи комп'ютерний зір, нейронні мережі показали помітний прогрес за останнє десятиліття. Конволюційні нейронні мережі, запроваджені Лекуном в 1989 році, виявилися в кінцевому підсумку дуже успішними в розпізнаванні зображень. Повідомлялося, що вони можуть перевершити більшість інших підходів до розпізнавання, заснованих на комп'ютері.
Цікаві властивості, що виникають, з'являються під час підготовки конволюційних нейронних мереж, що навчаються для розпізнавання об'єктів. Перший шар прихованих вузлів представляє низькорівневі детектори функцій, подібні до операторів масштабного простору Т. Ліндеберга, Виявлення функцій з автоматичним підбором масштабу, 1998 . Ці оператори масштабного простору виявляють
та деякі інші основні функції зображення.
Ще цікавіше те, що на перших етапах (біологічної) обробки зображень було показано, що перцептивні нейрони у мозку ссавців нагадують такий спосіб роботи. Так із CNN, наукове співтовариство закривається у тому, що робить сприйняття людини настільки феноменальним. Це робить дуже вагомим продовжувати цей напрямок досліджень далі.