Запитання з тегом «deep-learning»

Глибоке навчання - це область машинного навчання, метою якої є вивчення складних функцій за допомогою спеціальних нейронних мережевих архітектур, які є "глибокими" (складаються з багатьох шарів). Цей тег слід використовувати для запитань щодо впровадження архітектури глибокого навчання. Загальні питання машинного навчання повинні бути позначені "машинне навчання". Включення тегу для відповідної бібліотеки програмного забезпечення (наприклад, "keras", "tensorflow", "pytorch", "fast.ai" тощо) є корисним.


3
Розуміння Керасу LSTM
Я намагаюся узгодити своє розуміння LSTM і наголосив тут, на цій посаді Крістофер Олах, реалізований у Керасі. Я стежу за блогом, написаним Джейсоном Браунлі для підручника «Керас». Що я в основному плутаю, це Перестановка рядів даних у [samples, time steps, features]та, Державні LSTM Давайте зосередимось на двох вищезазначених питаннях з …

15
Яка різниця між накладками 'SAME' та 'VALID' у tf.nn.max_pool tensorflow?
У чому різниця між «SAME» і «ДІЙСНО» оббивкою в tf.nn.max_poolз tensorflow? На мою думку, "VALID" означає, що за межами країв не буде нульової прокладки, коли ми робимо максимальний пул. Відповідно до Посібника з арифметики згортання для глибокого навчання , в ньому йдеться про те, що в операторі пулу не буде …

2
Пояснення введення Keras: вхідна форма, одиниці, batch_size, затемнення тощо
Для будь-якого шару Keras ( Layerклас), може хто - то пояснити , як зрозуміти різницю між input_shape, units, dimі т.д.? Наприклад, доктор говорить, unitsзадайте форму виводу шару. На зображенні нейронна сітка внизу hidden layer1має 4 одиниці. Чи це безпосередньо перекладається на unitsатрибут Layerоб’єкта? Або unitsв Керасі однакова форма кожної ваги …

11
Яке значення слова logits у TensorFlow?
У наступній функції TensorFlow ми повинні подати активацію штучних нейронів у заключному шарі. Це я розумію. Але я не розумію, чому це називається logits? Це не математична функція? loss_function = tf.nn.softmax_cross_entropy_with_logits( logits = last_layer, labels = target_output )

3
Як інтерпретувати "втрату" та "точність" для моделі машинного навчання
Коли я тренував свою нейронну мережу разом із Теано чи Тенсдорфлоу, вони повідомлятимуть про змінну під назвою "втрата" за епоху. Як слід інтерпретувати цю змінну? Чим більше втрати, тим краще чи гірше, або що це означає для остаточної продуктивності (точності) моєї нейронної мережі?

5
Найкращий спосіб зберегти навчену модель в PyTorch?
Я шукав альтернативні способи збереження навченої моделі в PyTorch. Поки що я знайшов дві альтернативи. torch.save () для збереження моделі та torch.load () для завантаження моделі. model.state_dict () для збереження навченої моделі та model.load_state_dict () для завантаження збереженої моделі. Я натрапив на цю дискусію, де рекомендується підхід 2 над підходом …

11
Чому binary_crossentropy та categorical_crossentropy дають різні вистави для однієї проблеми?
Я намагаюся навчити CNN класифікувати текст за темами. Коли я використовую бінарну перехресну ентропію, я отримую ~ 80% точності, при категоричній перехресній ентропії я отримую ~ 50% точності. Я не розумію, чому це. Це багатокласова проблема, чи це не означає, що я повинен використовувати категоричну перехресну ентропію і що результати …

8
Що робить tf.nn.embedding_lookup функція?
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) Я не можу зрозуміти обов'язок цієї функції. Це як таблиця пошуку? Що означає повернути параметри, що відповідають кожному id (у id)? Наприклад, skip-gramякщо ми використовуємо модель tf.nn.embedding_lookup(embeddings, train_inputs), то для кожної train_inputвона знаходить відповідне вбудовування?

10
Керас, Як отримати вихід кожного шару?
Я підготував двійкову модель класифікації з CNN, і ось мій код model = Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode='valid', input_shape=input_shape)) model.add(Activation('relu')) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation('relu')) model.add(MaxPooling2D(pool_size=pool_size)) # (16, 16, 32) model.add(Convolution2D(nb_filters*2, kernel_size[0], kernel_size[1])) model.add(Activation('relu')) model.add(Convolution2D(nb_filters*2, kernel_size[0], kernel_size[1])) model.add(Activation('relu')) model.add(MaxPooling2D(pool_size=pool_size)) # (8, 8, 64) = (2048) model.add(Flatten()) model.add(Dense(1024)) model.add(Activation('relu')) model.add(Dropout(0.5)) model.add(Dense(2)) # …

12
Чому нелінійну функцію активації слід використовувати в нейронній мережі зворотного розповсюдження?
Я читав деякі речі в нейронних мережах і розумію загальний принцип одношарової нейронної мережі. Я розумію необхідність додаткових шарів, але чому використовуються нелінійні функції активації? Після цього питання йде наступне : Що таке похідна функції активації, яка використовується для зворотного розповсюдження?

4
Інтуїтивне розуміння 1D, 2D і 3D згортків у конволюційних нейронних мережах
Чи може хто-небудь, будь ласка, чітко пояснити різницю між 1D, 2D та 3D-згортками в конволюційних нейронних мережах (в глибокому навчанні) за допомогою прикладів?


2
Багато в одному і багато-багато прикладів LSTM в Керасі
Я намагаюся зрозуміти LSTM і як їх побудувати за допомогою Кераса. Я з'ясував, що в основному є 4 режими для запуску RNN (4 правильних на малюнку) Джерело зображення: Андрій Карпатій Тепер мені цікаво, як виглядав би мінімалістичний фрагмент коду для кожного з них у Keras. Так щось на кшталт model …

5
Яка роль "Flatten" у Кераса?
Я намагаюся зрозуміти роль Flattenфункції у Кераса. Нижче мій код, який представляє собою просту двошарову мережу. Він бере двовимірні дані форми (3, 2) і виводить одновимірні дані форми (1, 4): model = Sequential() model.add(Dense(16, input_shape=(3, 2))) model.add(Activation('relu')) model.add(Flatten()) model.add(Dense(4)) model.compile(loss='mean_squared_error', optimizer='SGD') x = np.array([[[1, 2], [3, 4], [5, 6]]]) y …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.