Запитання з тегом «neural-networks»

Штучні нейронні мережі (АНН) - це широкий клас обчислювальних моделей, що базуються на біологічних нейронних мережах. Вони охоплюють подачі NN (включаючи "глибокі" NN), звивисті NN, повторювані NN тощо.

2
Чи є загальною практикою мінімізація середньої втрати за партіями замість суми?
Tensorflow має приклад навчального посібника щодо класифікації CIFAR-10 . У підручнику середня поперечна втрата ентропії по всій партії зведена до мінімуму. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D …

1
Тензори в літературі з нейронної мережі: яке найпростіше визначення там?
У літературі з нейронної мережі часто ми зустрічаємо слово "тензор". Чи відрізняється він від вектора? А з матриці? Чи є у вас якийсь конкретний приклад, який уточнює його визначення? Я трохи розгублений щодо його визначення. Вікіпедія не допомагає, і іноді у мене складається враження, що її визначення залежить від конкретного …

2
Найсучасніший досвід загального навчання за даними 69 року
Я намагаюся зрозуміти контекст відомої книги Міньського та Паперта «Перцептрони» 1969 року, настільки критичного для нейронних мереж. Наскільки я знаю, інших загальних алгоритмів навчання під контролем не було, окрім персептрон: дерева рішень почали стати корисними лише наприкінці 70-х, випадкові ліси та СВМ - 90-ті. Здається, що метод джекніфа був уже …

3
tanh vs. sigmoid у нейронній мережі
Я заздалегідь прошу вибачення за те, що я все-таки підходжу до цього. Я намагаюся зрозуміти плюси і мінуси використання tanh (карта від 1 до 1) проти сигмоїда (карта 0 до 1) для моєї функції активації нейрона. З мого читання це звучало як незначна річ з граничними відмінностями. На практиці у …

1
кількість функціональних карт у конволюційних нейронних мережах
Під час вивчення конволюційної нейронної мережі у мене виникають запитання щодо наступного малюнка. 1) C1 у шарі 1 має 6 функціональних карт, чи це означає, що є шість згорткових ядер? Кожне згорнуте ядро ​​використовується для створення карти функцій на основі вхідних даних. 2) S1 у шарі 2 має 6 функціональних …

3
Що робить крок згортки в конволюційній нейронній мережі?
Я вивчаю конволюційні нейронні мережі (CNN) завдяки їх застосуванню в комп'ютерному зорі. Я вже знайомий зі стандартними нейронними мережами, що рухаються вперед, тому я сподіваюся, що деякі люди тут можуть допомогти мені зробити додатковий крок у розумінні CNN. Ось що я думаю про CNN: У традиційних NN-каналах подачі даних у …

2
Які альтернативи VC-виміру для вимірювання складності нейронних мереж?
Я натрапив на кілька основних способів вимірювання складності нейронних мереж: Наївні та неформальні: підраховують кількість нейронів, прихованих нейронів, шарів чи прихованих шарів VC-вимір (Eduardo D. Sontag [1998] "VC-розмір нейронних мереж" [ pdf ].) ОбчислювальнаТС0гТСг0TC^0_d та асимптотична обчислювальна складність вимірювання за еквівалентністю . Чи є інші альтернативи? Краще: Якщо показник складності …

2
Початок роботи з нейронними мережами для прогнозування
Мені потрібні деякі ресурси, щоб почати використовувати нейронні мережі для прогнозування часових рядів. Я насторожено реалізую деякий документ, а потім з’ясовую, що вони значно перекрили потенціал своїх методів. Тож якщо у вас є досвід використання методів, які ви пропонуєте, це стане ще більш приголомшливим.

3
Багатошаровий перцептрон проти глибокої нейронної мережі
Це питання термінології. Іноді я бачу, як люди посилаються на глибокі нейронні мережі як "багатошарові перцептрони", чому це так? Перцептрон, як мене вчили, - це одношаровий класифікатор (або регресор) з двійковим пороговим виходом, використовуючи певний спосіб тренування ваг (а не зворотній опор). Якщо вихід перцептрона не відповідає цільовому виходу, ми …


5
Пояснення функції Yolo Loss
Я намагаюся зрозуміти функцію втрати Yolo v2: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} Якщо будь-яка людина може деталізувати функцію.

2
Пояснення Спайків у програмі втрати тренувань проти ітерацій Адама Оптимізатора
Я треную нейронну мережу за допомогою i) SGD та ii) Адапта оптимізатора. Під час використання звичайного SGD я отримую плавну криву втрати тренувань проти ітерації, як показано нижче (червона). Однак, коли я використовував оптимізатор Адама, крива втрати тренувань має деякі сплески. Яке пояснення цих шипів? Деталі моделі: 14 вхідних вузлів …

3
Чи можу я використовувати крихітний набір перевірки?
Я розумію міркування щодо розділення даних на тестовий набір і набір перевірки. Я також розумію, що розмір розбиття буде залежати від ситуації, але, як правило, коливатиметься від 50/50 до 90/10. Я побудував RNN, щоб виправити написання і почати з набору даних ~ 5м речень. Я голю 500k речень, а потім …

3
Хороша точність, незважаючи на високу вартість втрат
Під час навчання простого двійкового класифікатора нейронної мережі я отримую високе значення втрат, використовуючи крос-ентропію. Незважаючи на це, значення точності в наборі перевірки зберігається досить добре. Чи має це якесь значення? Не існує суворої кореляції між втратою та точністю? У мене на тренуванні та валідації ці значення: 0.4011 - соотв …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.