Статистика та великі дані neural-networks

3

Багатоваріантна лінійна регресія проти нейронної мережі?

Здається, що можна отримати подібні результати до нейронної мережі з багатоваріантною лінійною регресією в деяких випадках, а багатоваріантна лінійна регресія - дуже швидка і проста. За яких обставин нейронні мережі можуть дати кращі результати, ніж багатоваріантна лінійна регресія?

54 regression multiple-regression neural-networks

6

Оптимізатор Адама з експоненціальним розпадом

У більшості кодів Tensorflow, який я бачив, використовується оптимізатор Адама з постійною швидкістю навчання 1e-4(тобто 0,0001). Код зазвичай виглядає наступним чином: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = …

53 neural-networks deep-learning gradient-descent tensorflow adam

5

Нейронні мережі та підтримуючі векторні машини: чи є другий, безумовно, кращим?

Багато авторів статей, які я читаю, стверджують, що SVM - це чудова техніка для вирішення проблеми регресії / класифікації, усвідомлюючи, що вони не змогли отримати подібних результатів через NN. Часто порівняння стверджує, що SVM, замість NN, Майте сильну теорію заснування Досягти глобального оптимуму завдяки квадратичному програмуванню Немає проблем з вибором …

52 machine-learning svm neural-networks

2

Як можна використовувати штучну нейронну мережу ANN для кластеризації без нагляду?

Я розумію, як artificial neural network (ANN)можна тренуватися під наглядом, використовуючи зворотні пропорції для поліпшення пристосування, зменшуючи помилку в прогнозах. Я чув, що ANN може бути використаний для непідвладного навчання, але як це можна зробити без якоїсь функції витрат для керування етапами оптимізації? За допомогою k-засобів або алгоритму ЕМ існує …

52 clustering neural-networks unsupervised-learning self-organizing-maps

1

Яким повинен бути розмір партії для стохастичного градієнтного спуску?

Я розумію, що стохастичний градієнтний спуск може бути використаний для оптимізації нейронної мережі за допомогою зворотного розповсюдження шляхом оновлення кожної ітерації іншим зразком навчального набору даних. Яким повинен бути розмір партії?

49 machine-learning neural-networks gradient-descent backpropagation

3

Чому логістична регресія є лінійним класифікатором?

Оскільки ми використовуємо логістичну функцію для перетворення лінійної комбінації вхідних даних у нелінійний вихід, як можна вважати логістичну регресію лінійним класифікатором? Лінійна регресія подібна до нейронної мережі без прихованого шару, тому чому нейронні мережі вважаються нелінійними класифікаторами, а логістична регресія - лінійною?

49 logistic classification neural-networks

3

Рекурентні проти рекурсивні нейронні мережі: що краще для НЛП?

Існують рекурентні нейронні мережі та рекурсивні нейронні мережі. Обидва зазвичай позначаються однаковим абревіатурою: RNN. Згідно з Вікіпедією , періодичні NN насправді є рекурсивними NN, але я не дуже розумію пояснення. Більше того, я не вважаю, що краще (із прикладами чи так) для обробки природних мов. Справа в тому, що, хоча …

48 machine-learning neural-networks deep-learning natural-language

2

Чому конволюційні нейронні мережі не використовують класифікаційний векторний апарат підтримки?

В останні роки конволюційні нейронні мережі (CNN) стали найсучаснішим для розпізнавання об'єктів в комп'ютерному зорі. Зазвичай CNN складається з декількох згорткових шарів, за якими слідують два повністю з'єднані шари. Інтуїція, що стоїть за цим, полягає в тому, що згорткові шари навчаються кращому представленню вхідних даних, а повністю пов'язані шари потім …

46 machine-learning neural-networks svm deep-learning conv-neural-network

1

Розуміння "майже весь локальний мінімум має дуже подібне значення функції до глобального оптимуму"

У недавньому дописі блогу Ронге Ге сказано, що: Вважається, що для багатьох проблем, включаючи вивчення глибоких мереж, майже всі локальні мінімуми мають дуже схоже значення функції з глобальним оптимумом, а значить, знайти локальний мінімум досить добре. Звідки походить ця віра?

46 machine-learning neural-networks optimization deep-learning

6

Які альтернативи Gradient Descent?

Градієнтний спуск має проблему застрягти в локальних мінімумах. Для того, щоб знайти глобальні мінімуми, нам потрібно запустити експоненціальний час градієнта спуску. Хто-небудь може розповісти мені про будь-які альтернативи градієнтного спуску, що застосовуються в навчанні нейронної мережі, а також їх плюси та мінуси.

46 machine-learning svm neural-networks

1

Різниця між GradientDescentOptimizer та AdamOptimizer (TensorFlow)?

Я написав простий MLP в TensorFlow, який моделює XOR-ворота . Отже для: input_data = [[0., 0.], [0., 1.], [1., 0.], [1., 1.]] він повинен виробляти наступне: output_data = [[0.], [1.], [1.], [0.]] Мережа має вхідний шар, прихований шар та вихідний шар з 2, 5 та 1 нейроном кожен. В даний …

45 machine-learning neural-networks error gradient-descent supervised-learning

1

Як працює метод Адама стохастичного градієнтного спуску?

Мені знайомі основні алгоритми спуску градієнта для навчання нейронних мереж. Я прочитав документ, що пропонує Адаму: АДАМ: МЕТОД СТОХАСТИЧНОЇ ОПТИМІЗАЦІЇ . Хоча я, безумовно, отримав деяку інформацію (принаймні), папір здається мені занадто високим рівнем. Наприклад, функція витрат часто є сумою безлічі різних функцій, тому для оптимізації її значення необхідно зробити …

45 neural-networks optimization gradient-descent adam

4

Як ядра застосовуються до карт функцій для створення інших карт функцій?

Я намагаюся зрозуміти складову частину згорткових нейронних мереж. Дивлячись на таку цифру: У мене немає проблем з розумінням першого шару згортки, де у нас є 4 різних ядра (розміром ), які ми переплітаємо з вхідним зображенням, щоб отримати 4 карти карт.k × kk×kk \times k Що я не розумію, це …

44 machine-learning neural-networks deep-learning conv-neural-network

4

Яка функція активації для вихідного шару?

Хоча вибір функцій активації для прихованого шару досить чіткий (переважно сигмоподібний або тан), мені цікаво, як визначитися з функцією активації вихідного шару. Найпоширенішими варіантами є лінійні функції, сигмоїдні функції та функції softmax. Однак коли я повинен використовувати який?

44 neural-networks

7

Довідки з нейронної мережі (підручники, онлайн-курси) для початківців

Я хочу вивчити нейронні мережі. Я - комп'ютерний лінгвіст. Я знаю підходи до статистичного машинного навчання і можу кодувати в Python. Я хочу почати з її концепцій, і знаю одну або дві популярні моделі, які можуть бути корисні з точки зору обчислювальної лінгвістики. Я переглянув Інтернет для ознайомлення і знайшов …

43 neural-networks deep-learning references natural-language computer-vision

Запитання з тегом «neural-networks»