Статистика та великі дані neural-networks

2

Чи є загальною практикою мінімізація середньої втрати за партіями замість суми?

Tensorflow має приклад навчального посібника щодо класифікації CIFAR-10 . У підручнику середня поперечна втрата ентропії по всій партії зведена до мінімуму. def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D …

17 neural-networks loss-functions tensorflow

1

Тензори в літературі з нейронної мережі: яке найпростіше визначення там?

У літературі з нейронної мережі часто ми зустрічаємо слово "тензор". Чи відрізняється він від вектора? А з матриці? Чи є у вас якийсь конкретний приклад, який уточнює його визначення? Я трохи розгублений щодо його визначення. Вікіпедія не допомагає, і іноді у мене складається враження, що її визначення залежить від конкретного …

16 neural-networks terminology definition tensor

2

Найсучасніший досвід загального навчання за даними 69 року

Я намагаюся зрозуміти контекст відомої книги Міньського та Паперта «Перцептрони» 1969 року, настільки критичного для нейронних мереж. Наскільки я знаю, інших загальних алгоритмів навчання під контролем не було, окрім персептрон: дерева рішень почали стати корисними лише наприкінці 70-х, випадкові ліси та СВМ - 90-ті. Здається, що метод джекніфа був уже …

16 classification neural-networks history

3

tanh vs. sigmoid у нейронній мережі

Я заздалегідь прошу вибачення за те, що я все-таки підходжу до цього. Я намагаюся зрозуміти плюси і мінуси використання tanh (карта від 1 до 1) проти сигмоїда (карта 0 до 1) для моєї функції активації нейрона. З мого читання це звучало як незначна річ з граничними відмінностями. На практиці у …

16 neural-networks

1

кількість функціональних карт у конволюційних нейронних мережах

Під час вивчення конволюційної нейронної мережі у мене виникають запитання щодо наступного малюнка. 1) C1 у шарі 1 має 6 функціональних карт, чи це означає, що є шість згорткових ядер? Кожне згорнуте ядро використовується для створення карти функцій на основі вхідних даних. 2) S1 у шарі 2 має 6 функціональних …

16 machine-learning neural-networks deep-learning pattern-recognition conv-neural-network

3

Що робить крок згортки в конволюційній нейронній мережі?

Я вивчаю конволюційні нейронні мережі (CNN) завдяки їх застосуванню в комп'ютерному зорі. Я вже знайомий зі стандартними нейронними мережами, що рухаються вперед, тому я сподіваюся, що деякі люди тут можуть допомогти мені зробити додатковий крок у розумінні CNN. Ось що я думаю про CNN: У традиційних NN-каналах подачі даних у …

16 neural-networks deep-learning conv-neural-network convolution

2

Які альтернативи VC-виміру для вимірювання складності нейронних мереж?

Я натрапив на кілька основних способів вимірювання складності нейронних мереж: Наївні та неформальні: підраховують кількість нейронів, прихованих нейронів, шарів чи прихованих шарів VC-вимір (Eduardo D. Sontag [1998] "VC-розмір нейронних мереж" [ pdf ].) ОбчислювальнаТС0гТСг0TC^0_d та асимптотична обчислювальна складність вимірювання за еквівалентністю . Чи є інші альтернативи? Краще: Якщо показник складності …

16 neural-networks theory vc-dimension pac-learning

2

Початок роботи з нейронними мережами для прогнозування

Мені потрібні деякі ресурси, щоб почати використовувати нейронні мережі для прогнозування часових рядів. Я насторожено реалізую деякий документ, а потім з’ясовую, що вони значно перекрили потенціал своїх методів. Тож якщо у вас є досвід використання методів, які ви пропонуєте, це стане ще більш приголомшливим.

16 time-series neural-networks forecasting references

3

Багатошаровий перцептрон проти глибокої нейронної мережі

Це питання термінології. Іноді я бачу, як люди посилаються на глибокі нейронні мережі як "багатошарові перцептрони", чому це так? Перцептрон, як мене вчили, - це одношаровий класифікатор (або регресор) з двійковим пороговим виходом, використовуючи певний спосіб тренування ваг (а не зворотній опор). Якщо вихід перцептрона не відповідає цільовому виходу, ми …

16 neural-networks perceptron

1

Яка похідна від функції активації ReLU?

Яка похідна функції активації ReLU визначається як: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) Що з особливим випадком, коли в спостерігається розрив функції ?x=0x=0x=0

16 self-study neural-networks

5

Пояснення функції Yolo Loss

Я намагаюся зрозуміти функцію втрати Yolo v2: λcoord∑i=0S2∑j=0B1objij[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1objij[(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2]+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21obji∑c∈classes(pi(c)−p^i(c))2λcoord∑i=0S2∑j=0B1ijobj[(xi−x^i)2+(yi−y^i)2]+λcoord∑i=0S2∑j=0B1ijobj[(wi−w^i)2+(hi−h^i)2]+∑i=0S2∑j=0B1ijobj(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1ijnoobj(Ci−C^i)2+∑i=0S21iobj∑c∈classes(pi(c)−p^i(c))2\begin{align} &\lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(x_i-\hat{x}_i)^2 + (y_i-\hat{y}_i)^2 ] \\&+ \lambda_{coord} \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}[(\sqrt{w_i}-\sqrt{\hat{w}_i})^2 +(\sqrt{h_i}-\sqrt{\hat{h}_i})^2 ]\\ &+ \sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{obj}(C_i - \hat{C}_i)^2 + \lambda_{noobj}\sum_{i=0}^{S^2}\sum_{j=0}^B \mathbb{1}_{ij}^{noobj}(C_i - \hat{C}_i)^2 \\ &+ \sum_{i=0}^{S^2} \mathbb{1}_{i}^{obj}\sum_{c \in classes}(p_i(c) - \hat{p}_i(c))^2 \\ \end{align} Якщо будь-яка людина може деталізувати функцію.

16 neural-networks loss-functions object-detection yolo

2

Пояснення Спайків у програмі втрати тренувань проти ітерацій Адама Оптимізатора

Я треную нейронну мережу за допомогою i) SGD та ii) Адапта оптимізатора. Під час використання звичайного SGD я отримую плавну криву втрати тренувань проти ітерації, як показано нижче (червона). Однак, коли я використовував оптимізатор Адама, крива втрати тренувань має деякі сплески. Яке пояснення цих шипів? Деталі моделі: 14 вхідних вузлів …

16 neural-networks deep-learning adam

3

Чи можу я використовувати крихітний набір перевірки?

Я розумію міркування щодо розділення даних на тестовий набір і набір перевірки. Я також розумію, що розмір розбиття буде залежати від ситуації, але, як правило, коливатиметься від 50/50 до 90/10. Я побудував RNN, щоб виправити написання і почати з набору даних ~ 5м речень. Я голю 500k речень, а потім …

15 machine-learning neural-networks validation

3

Хороша точність, незважаючи на високу вартість втрат

Під час навчання простого двійкового класифікатора нейронної мережі я отримую високе значення втрат, використовуючи крос-ентропію. Незважаючи на це, значення точності в наборі перевірки зберігається досить добре. Чи має це якесь значення? Не існує суворої кореляції між втратою та точністю? У мене на тренуванні та валідації ці значення: 0.4011 - соотв …

15 neural-networks accuracy

4

Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій

Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

Запитання з тегом «neural-networks»