Запитання з тегом «deep-learning»

Глибоке навчання - це область машинного навчання, метою якої є вивчення складних функцій за допомогою спеціальних нейронних мережевих архітектур, які є "глибокими" (складаються з багатьох шарів). Цей тег слід використовувати для запитань щодо впровадження архітектури глибокого навчання. Загальні питання машинного навчання повинні бути позначені "машинне навчання". Включення тегу для відповідної бібліотеки програмного забезпечення (наприклад, "keras", "tensorflow", "pytorch", "fast.ai" тощо) є корисним.


4
багатошарова персептронна архітектура (MLP): критерії вибору кількості прихованих шарів та розміру прихованого шару?
Якщо у нас є 10 власних векторів, у нас може бути 10 нейронних вузлів у вхідному шарі. Якщо у нас є 5 вихідних класів, то у вихідного шару ми можемо мати 5 вузлів. Але які критерії вибору кількості прихованого шару в MLP і скільки нейронних вузли в 1 прихованому шарі?

1
Які параметри слід використовувати для ранньої зупинки?
Я навчаю нейронну мережу для свого проекту за допомогою Keras. Keras забезпечив функцію ранньої зупинки. Чи можу я знати, які параметри слід дотримуватись, щоб уникнути перенапруження нейронної мережі за допомогою ранньої зупинки?

6
Як застосувати відсікання градієнта в TensorFlow?
Розглядаючи приклад коду . Я хотів би знати, як застосувати відсікання градієнта в цій мережі на RNN, де існує можливість вибуху градієнтів. tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) Це приклад, який можна використати, але де я можу це ввести? У def RNN lstm_cell = rnn_cell.BasicLSTMCell(n_hidden, forget_bias=1.0) # Split data because rnn cell …

6
Використання попередньо навченого вбудовування слів (word2vec або Glove) у TensorFlow
Нещодавно я переглянув цікаву реалізацію класифікації згорткового тексту . Однак у коді TensorFlow, який я розглядав, використовуються випадкові (не попередньо навчені) вектори вбудовування, такі як: with tf.device('/cpu:0'), tf.name_scope("embedding"): W = tf.Variable( tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0), name="W") self.embedded_chars = tf.nn.embedding_lookup(W, self.input_x) self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1) Хто-небудь знає, як використовувати результати Word2vec …

10
Як додати регуляризації в TensorFlow?
У багатьох доступних кодах нейронної мережі, реалізованих за допомогою TensorFlow, я виявив, що умови регуляризації часто реалізуються вручну, додаючи додатковий термін до вартості втрат. Мої запитання: Чи є більш елегантний або рекомендований спосіб регуляризації, ніж робити це вручну? Я також вважаю, що get_variableтут є аргумент regularizer. Як його використовувати? Згідно …

5
чому ми "пакуємо" послідовності в pytorch?
Я намагався повторити Як використовувати пакування для входів послідовності змінної довжини для rnn, але, мабуть, спочатку потрібно зрозуміти, чому нам потрібно "упакувати" послідовність. Я розумію, чому нам потрібно їх "забивати", але чому "упаковка" (наскрізь pack_padded_sequence) необхідна? Будь-яке пояснення високого рівня буде вдячне!

6
PyTorch - суміжний ()
Я переглядав цей приклад мовної моделі LSTM на github (посилання) . Що це взагалі робить, мені цілком зрозуміло. Але я все ще намагаюся зрозуміти, що contiguous()робить виклик , який кілька разів трапляється в коді. Наприклад, у рядку 74/75 коду створюються вхідні та цільові послідовності LSTM. Дані (що зберігаються ids) є …

5
Яка користь від багатослів’я у Keras під час перевірки моделі?
Я вперше запускаю модель LSTM. Ось моя модель: opt = Adam(0.002) inp = Input(...) print(inp) x = Embedding(....)(inp) x = LSTM(...)(x) x = BatchNormalization()(x) pred = Dense(5,activation='softmax')(x) model = Model(inp,pred) model.compile(....) idx = np.random.permutation(X_train.shape[0]) model.fit(X_train[idx], y_train[idx], nb_epoch=1, batch_size=128, verbose=1) Яка користь від багатослів’я під час навчання моделі?

4
Що означає global_step у Tensorflow?
У цьому навчальному коді веб-сайту TensorFlow, хтось може допомогти пояснити, що це global_stepозначає? Я знайшов на веб-сайті Tensorflow, що написано, що використовується загальний крок, підраховуючи навчальні кроки , але я не зовсім розумію, що саме це означає. Крім того, що означає цифра 0 під час налаштування global_step? def training(loss,learning_rate): tf.summary.scalar('loss',loss) …

2
як відформатувати дані зображення для навчання / передбачення, коли зображення різного розміру?
Я намагаюся навчити свою модель, яка класифікує зображення. Проблема у мене полягає в тому, що вони мають різні розміри. як відформатувати зображення / архітектуру моделі?

5
Керас, як я можу передбачити після того, як я навчив модель?
Я граюсь із набором даних із прикладу reuters, і він працює нормально (моя модель навчена). Я читав про те, як зберегти модель, щоб я міг завантажити її пізніше, щоб використовувати знову. Але як я можу використовувати цю збережену модель для прогнозування нового тексту? Чи використовую я models.predict()? Чи потрібно готувати …

5
Поширені причини нансу під час тренування
Я помітив, що під час тренувань NANвводяться часті випадки . Часто здається, що це вводиться вагами у продувних шарах внутрішнього продукту / повністю з'єднаних або звивин. Це відбувається тому, що обчислення градієнта роздувається? Або це через ініціалізацію ваги (якщо так, чому ініціалізація ваги має такий ефект)? Або це, ймовірно, спричинено …

1
Яка роль шару TimeDistributed у Keras?
Я намагаюся зрозуміти, що обгортка TimeDistributed робить у Keras. Я розумію, що TimeDistributed "застосовує шар до кожного тимчасового зрізу введення". Але я провів експеримент і отримав ті результати, які я не можу зрозуміти. Коротше кажучи, стосовно рівня LSTM, TimeDistributed і просто щільний шар дають однакові результати. model = Sequential() model.add(LSTM(5, …

4
Як розпакувати файл pkl?
У мене є файл pkl із набору даних MNIST, який складається із рукописних цифрових зображень. Я хотів би поглянути на кожне з цих цифрових зображень, тому мені потрібно розпакувати файл pkl, за винятком того, що я не можу дізнатися, як. Чи є спосіб розпакувати / розпакувати файл pkl?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.