Чому б не просто скинути нейронні мережі та глибоке навчання? [зачинено]


25

Принципова проблема глибокого навчання та нейронних мереж загалом.

  1. Рішення, що відповідають даним навчальних даних, є нескінченними. У нас немає точного математичного рівняння, яке задовольняє лише одне, і яке, можна сказати, найкраще узагальнює. Простіше кажучи, ми не знаємо, що найкраще узагальнює.

  2. Оптимізація ваг не є опуклою проблемою, тому ми ніколи не знаємо, чи закінчується глобальний або локальний мінімум.

То чому б не просто скинути нейронні мережі і замість цього шукати кращу модель ML? Щось, що ми розуміємо, і щось, що відповідає набору математичних рівнянь? Лінійний і SVM не мають таких математичних недоліків і повністю відповідають набору математичних рівнянь. Чому б не просто думати про ті ж лінії (не потрібно, щоб вони були лінійними) і придумати нову модель ML краще, ніж Linear і SVM, нейронні мережі та глибоке навчання?


37
Якщо ти знайдеш, люди будуть.
Меттью Друрі

23
"Чому б не придумати ...?" Ви б не повірили, скільки дослідників зайнято намаганням зробити саме це! Вони просто досі не мали успіху.
Кіліан Фот

31
"Усі моделі помиляються, але деякі корисні", і nns, безумовно, корисні.
Джош

15
@RajeshDachiraju - це стара ідіома, але я був, можливо, трохи розпливчастим. Ви запитали, чому б не викинути NN, оскільки вони не ідеальні. Мій реторт полягає в тому, що вони не ідеальні, але вони КОРИСНІ. Люди використовують їх для автопривезення автомобілів, перекладу іноземних мов, тегів на відео, для збереження китів і навіть для того, щоб застосувати ці сміття фільтри snapchat з собачими вухами до ваших фотографій! наприклад, вони працюють, тому ми продовжуємо їх використовувати :)
josh

13
Ви також знаєте, що не так: Механіка Ньютона. Квантова механіка. Відносність. Вся фізика помилкова (немає жодної єдиної моделі, яка б описувала все, всі мають свої вади). Хімія абсолютно не так з багатьма речами (опис атома - це завжди лише гарне наближення, але ніколи точно). Єдина абсолютно правдива річ у світі - математика. Чиста математика. Все інше наближається до правильної відповіді. Чи варто викидати решту? (Починаючи з комп’ютера, побудованого з неправильними законами?). Ні. Знову: всі моделі помиляються, але деякі корисні.
Mayou36

Відповіді:


48
  1. Неможливо знати, яке рішення найкраще узагальнює, це проблема, але це не повинно стримувати нас від використання хорошого рішення. Самі люди часто не знають, що найкраще узагальнює (розглянемо, наприклад, змагаються з об'єднуючими теоріями фізики), але це не спричиняє нам занадто багато проблем.

  2. Було показано, що вкрай рідко тренування провалюються через місцеві мінімуми. Більшість локальних мінімумів у глибокій нейронній мережі близькі за значенням до світового мінімуму, тому це не є проблемою. джерело

Але більш широка відповідь полягає в тому, що ви можете говорити цілий день про неконвекційність та вибір моделі, і люди все одно будуть використовувати нейронні мережі просто тому, що вони працюють краще, ніж будь-що інше (принаймні, на речі, такі як класифікація зображень).

Звичайно, є також люди, які стверджують, що ми не повинні надто зосереджуватися на CNN, як громада була зосереджена на SVM кілька десятиліть тому, а натомість продовжувати шукати наступну велику річ. Зокрема, я думаю, що я пам’ятаю, що Гінтон шкодував про ефективність CNN, як про щось, що може заважати дослідженням. пов’язаний пост


1
Особливо мені подобається останній абзац.
Раджеш Дачіраджу

10
Чи є у вас цитування пункту №2?
DrMcCleod

@DrMcCleod: для мене точка 2 більше нагадує джингоїзм. Просто в більш легкому сенсі.
Раджеш Дачіраджу

6
@DrMcCleod є багато роботи, яка дозволяє припустити, що локальні мінімуми дуже близькі до глобальних мінімумів, а натомість питання сідла. Дивіться цей документ для обговорення сідлових пунктів і цей документ, чому місцеві мінімуми не обов'язково погані.
jld

1
Я б вважав за краще лише один театр, сподіваюся. Але припустимо, я знаю, що будь-який фільм мені сподобається майже так само, як той фільм, який я дуже хочу переглянути. Тоді я не розчаруюся, коли є 10 театрів, і мені доведеться вибрати один навмання, бо знаю, що будь-який театр і фільм залишать мене задоволеним.
shimao

14

Як зазначають коментарі до вашого запитання, багато людей працюють над пошуком чогось кращого. Хоча я хотів би відповісти на це питання, розширивши коментар, залишений @josh


Усі моделі неправильні, але деякі корисні (Wiki)

Вищенаведене твердження є загальною істиною, що використовується для опису природи статистичних моделей. Використовуючи доступні нам дані, ми можемо створити моделі, які дозволять нам робити корисні речі, такі як приблизна прогнозована величина.

Візьмемо для прикладу лінійну регресію

Використовуючи ряд спостережень, ми можемо підходити до моделі, щоб дати нам приблизне значення для залежної змінної з урахуванням будь-якого значення для незалежної змінної.

Бернхем, КП; Anderson, DR (2002), вибір моделі та мультимодель> умовивід: практичний інформаційно-теоретичний підхід (2-е видання):

"Модель є спрощенням або наближенням реальності, а отже, не відображатиме всю реальність ... Коробка зазначила, що" всі моделі помиляються, але деякі корисні ". Хоча модель ніколи не може бути" правдою ", модель може бути класифікованим від дуже корисного, корисного, до дещо корисного, нарешті, по суті марного ».

Відхилення від нашої моделі (як видно на зображенні вище) здаються випадковими, деякі спостереження знаходяться нижче лінії, а деякі - вище, але наша регресія показує загальну кореляцію. Хоча відхилення в нашій моделі виглядають випадковими, в реалістичних сценаріях будуть інші фактори, які викликають це відхилення. Наприклад, уявіть, як спостерігають за автомобілями, коли вони їхали через перехрестя, де вони повинні повернути ліворуч або праворуч, щоб продовжувати, автомобілі повертаються без конкретного малюнка. Хоча ми могли б сказати, що напрямок руху автомобілів є абсолютно випадковим, чи кожен водій досягає перехрестя і в цьому місці приймає випадкове рішення, яким шляхом повернути? Насправді вони, ймовірно, прямують кудись із конкретних причин, і не намагаючись зупинити кожен автомобіль, щоб розпитати їх про їх міркування, ми можемо лише описати їх дії як випадкові.

Де ми можемо помістити модель з мінімальним відхиленням, наскільки ми можемо бути впевненими, що невідома, непомічена чи незмірна змінна, яка не буде в якийсь момент, кидає нашу модель? Чи крила метелика крилами в Бразилії відтягує смерч в Техасі?

Проблема з використанням лінійних та SVN моделей, які ви згадуєте лише, полягає в тому, що нам дещо потрібно вручну спостерігати за нашими змінними та як вони впливають один на одного. Потім нам потрібно вирішити, які змінні важливі і написати алгоритм, що відповідає специфічній задачі. Це може бути прямо вперед, якщо у нас є лише кілька змінних, але що робити, якщо нас було тисячі? Що, якби ми хотіли створити узагальнену модель розпізнавання образів, чи могли б реально досягти цього підходу?

Глибоке навчання та штучні нейронні мережі (ANN) можуть допомогти нам створити корисні моделі для величезних наборів даних, що містять величезну кількість змінних (наприклад, бібліотеки зображень). Як ви вже згадували, існує незрозуміла кількість рішень, які могли б відповідати даним за допомогою ANN, але чи справді це число відрізняється від кількості рішень, які нам потрібно буде розробити самостійно шляхом спроб та помилок?

Застосування ANN робить велику роботу для нас, ми можемо вказати наші входи та бажані результати (і змінити їх пізніше для вдосконалення) та залишити це до ANN, щоб розібратися у рішенні. Ось чому ANN часто називають "чорними скриньками" . З даного введення вони виводять наближення, однак (загалом) ці наближення не містять деталей про те, як вони були наближені.

І так це дійсно зводиться до того, яку проблему ви намагаєтеся вирішити, оскільки проблема буде диктувати, який модельний підхід корисніший. Моделі не зовсім точні, тому завжди є елемент «помилки», проте чим точніші ваші результати, тим вони корисніші. Детальніше в результатах того, як було зроблено наближення, також може бути корисним, залежно від проблеми це може бути навіть корисніше, ніж підвищена точність.

Якщо, наприклад, ви підраховуєте кредитну оцінку осіб, використовуючи регресію та SVM, ви можете розрахувати, які можна краще вивчити. Дуже корисно мати можливість безпосередньо налаштувати модель і пояснити клієнтам вплив окремих незалежних змінних на загальний бал. ANN може допомогти в обробці більшої кількості змінних для досягнення більш точного показника, але чи буде ця точність кориснішою?


6
Ви зазначаєте кілька хороших моментів, але той факт, що "у багатьох випадках наші спостереження та прогнози не будуть сидіти точно на встановленій лінії", не є влучною демонстрацією гасла "всі моделі помиляються". У лінійній регресії ми моделюємо E (Y | X) і, таким чином, точки, що не лежать точно на лінії, не демонструють дефіцит нашої моделі. Випадковість заздалегідь визначена і очікувана; модель не є «помилковою», коли спостерігаємо відхилення від встановленої лінії.
klumbard

@klumbard Дякую за коментар. Я оновив свою відповідь більш докладно, що пояснює мої міркування щодо використання цього в якості прикладу. Я взяв більш філософський підхід у своїй відповіді і висловився більш загально, а не конкретно, це моя перша публікація в цій спільноті, тому вибачтесь, якщо це не місце для цього. Ви здаєтесь знаючими про специфіку, чи могли б ви детальніше розглянути свій коментар? У мене виникає питання, коли відхилення не демонструють дефіцит, чи не є «неправильною» модель регресії з R-квадратом 0,01?
Carrosive

2
Єдине моє питання з вашим дописом - це те, як ви висловлюєте фразу "... як у багатьох випадках наші спостереження та прогнози не будуть сидіти точно на встановленому рядку. Це один із способів, коли наша модель часто" неправильна "..." . Я просто кажу, що специфікація моделі включає в себе термін помилки, і тому факт (поодинці), що спостережувані дані не потрапляють на встановлену лінію, не вказує на "неправильність" моделі. Це може здатися тонким смисловим відмінністю, але я думаю, що це важливо
клумбард

1
Важливим моментом, на який ви звертаєтесь, є те, що всі моделі помиляються через опущені змінні зміщення, а також неправильне визначення функціональної форми. Кожен раз, коли ви записуєте регресійну модель і виконуєте висновки за оцінками, ви припускаєте, що ви правильно вказали модель, що ніколи не буває.
клумбард

1
@klumbard О, я бачу, куди ти зараз йдеш. Отже, хоча модель дає оцінки, які навряд чи будуть абсолютно точними, ми можемо виміряти термін помилки, щоб стверджувати, наскільки реальні значення можуть відхилятися від оцінок, і, таким чином, було б невірно сказати, що модель по суті невірна. Я візьму цю частину з своєї відповіді, я вважаю, що мій погляд краще пояснено в частині, яку я додав після цього. Дякуємо за роз’яснення :)
Carrosive

8

Глобальний мінімум може бути і марним, тому нам насправді все одно, знайдемо ми його чи ні. Причина в тому, що для глибоких мережне тільки час її знаходження стає експоненціально довшим, оскільки розмір мережі збільшується, але й глобальний мінімум часто відповідає перевищенню навчального набору. Таким чином, постраждає здатність до узагальнення DNN (що саме нас насправді хвилює). Крім того, часто ми віддаємо перевагу більш рівним мінімумам, що відповідають більшому значенню функції втрат, ніж різкішим мінімумам, що відповідає нижчому значенню функції втрат, оскільки другий буде дуже погано справлятися з невизначеністю вхідних даних. Це стає все більш зрозумілим із розвитком байєсівського глибокого навчання. Надійна оптимізація перемагає детерміновану оптимізацію дуже часто, коли застосовується до реальних проблем, де важлива невизначеність.

Нарешті, факт, що DNN просто запускають дупу таких методів, як XGBoost при класифікації зображень та NLP. Компанія, яка повинна отримувати прибуток за допомогою класифікації зображень, правильно вибере їх як моделі для розгортання у виробництві ( і вкладе значну суму грошей на функціональну інженерію, конвеєр даних тощо, але я відхиляюсь). Це не означає, що вони домінують у всьому середовищі ML: наприклад, вони поступаються гірше, ніж XGBoost за структурованими даними (див. Останніх переможців змагань Kaggle), і вони, здається, ще не роблять, а також фільтри частинок для моделювання часових рядів. Однак деякі новітні нововведення на RNN можуть змінити цю ситуацію.


2
Дійсно? Зниження? Це трохи не вимагається. Це розумна відповідь (+1).
usεr11852 повідомляє Відновити Монік

5
@RajeshDachiraju, оскільки ти, мабуть, намагаєшся зробити висновок про те, про що я б і чого не знав, то, напевно, тобі було б цікаво дізнатися, що люди, які мають значно більше розуміння нейронних мереж та невипуклу оптимізацію, як ти, здається, звичайно говорять про єдиний глобальний мінімум для нейронних мереж. Серед величезної купи паперів, що використовують цю термінологію, ви можете спробувати прочитати цю і побачити, чи розумієте ви, де ви помиляєтесь.
DeltaIV

2
@RajeshDachiraju: Дякую, що ви пояснили свої міркування, багато людей просто не турбуються. Зважаючи на це, я думаю, що ваші міркування щодо цього є хибними і випливають з неправильного тлумачення дуже конкретної фрази. Я погоджуюся з DeltaIV, що це стандартна термінологія.
usεr11852 повідомляє Відновити Моніку

1
@DeltaIV: Моя думка, може бути кілька весових векторів, які мають 0 втрат на дані тренувань (звичайно, зберігаючи архітектуру постійною). Весь сенс тренувань полягає в отриманні вектору ваги в ньому? Тож я не згоден з вами. Один із цих векторів ваги надзвичайно корисний. Але я прошу дати згоду не погодитися і закінчити цю розмову тут. З повагою Раджеш
Раджеш Дачіраджу

1

7

Я думаю, що найкращий спосіб подумати над цим питанням - через конкурентне місце на ринку. Якщо ви кидаєте глибоке навчання, і ваші конкуренти використовують це, І це трапляється, що працює краще, ніж ви використовували, тоді вас поб'ють на ринку.

Я думаю, що це відбувається, почасти, сьогодні, тобто глибоке навчання, здається, працює краще за все для багатьох проблем на ринку. Наприклад, онлайн- перекладачі мови, які використовують глибоке навчання , краще, ніж суто лінгвістичні підходи, які використовувались раніше. Ще кілька років тому цього не було, але прогрес у глибокому навчанні привів тих, хто звик до лідерських позицій на ринку.

Я постійно повторюю "ринок", тому що саме це сприяє поточному сплеску глибокого навчання. Щойно бізнес знайде щось корисне, що щось набуде широкого поширення. Справа не в тому, що ми , комітет, вирішили, що глибоке навчання має бути популярним. Це бізнес та конкуренція.

Друга частина полягає в тому, що крім фактичного успіху ML, є також страх пропустити човен. Багато підприємств параноїкують, що якщо вони пропустять AI, вони зазнають краху як бізнес. Цей страх живиться усіма цими консультаційними будинками, Gartners тощо, шепочуючи керівникам, що вони повинні зробити AI або померти завтра.

Ніхто не змушує підприємств використовувати глибоке навчання. IT та R&D захоплюються новою іграшкою. Академія бадьорить, тому ця вечірка триватиме до тих пір, поки музика не припиниться, тобто до тих пір, поки глибоке навчання не перестане здійснювати. Тим часом можна скинути його і придумати краще рішення.


А як щодо фінансування академічних досліджень? Ви можете, будь ласка, пролити на це трохи світла?
Раджеш Дачіраджу

2
Багато фінансування надходить від галузі. Професори, які отримують найбільше грошей у галузі, є найвпливовішими в наукових колах. Університети забирають величезний кусок грошей, який вони отримують від фірм, тому вони люблять цих професорів. Якщо ви прочитаєте цю статтю про Нью-Йорк, ви можете отримати уявлення про шаленство як в наукових колах, так і в галузі
Аксакал

Дуже добре посилається на ринок (+1): Я сказав те саме ("Компанія, яка повинна отримувати прибуток за допомогою класифікації зображень, правильно вибере їх як моделі для розгортання у виробництві"). Однак я б м'яко не погодився з параною. Це факт (не параноїя), що Waymo готовий перемогти Tesla, Audi та іншого виробника автомобілів, імені якого я зараз не можу згадати, і це значною мірою через величезні інвестиції Google у Deep Learning. Ауді, безумовно, могли використовувати SIFT та SURF (добре перевірені технології комп'ютерного зору, які жодним чином не пов'язані з глибоким навчанням), якби вони ...
DeltaIV

... хотів. Перевага DL щодо SIFT, SURF та інших методів, заснованих на геометрії, що стосується класифікації зображень, - це факт, засвідчений п'ятьма роками ґрунтовних наукових та промислових досліджень. Це, безумовно, не панацея (див. Невдачі IBM Watson), і є певний галас, але є й важкі, холодні факти.
DeltaIV

2
@DeltaIV ML, безумовно, працює в деяких програмах, але я думаю, що сьогодні широке поширення його спричинено значною мірою через параноїю та галас. Незалежно від того, працюють вони чи ні, ОГО просто йдуть на це. У мене є друзі, які не мали уявлення про те, про що я говорив лише рік тому, зараз вони кажуть, що AI - це майбутнє, вони збираються розпочати впровадження тощо.
Aksakal

4

Є чудові відповіді, в основному зважуючи корисність DL та ANN. Але я хотів би заперечити проти ОП більш фундаментальний спосіб, оскільки питання вже сприймає як належне математичну непослідовність нейронних мереж.

Перш за все, за більшості моделей нейронних мереж стоїть математична теорія. Ви також можете стверджувати, що лінійна регресія не узагальнюється, якщо тільки основна модель не є ... ну, лінійною. У нейронних алгоритмах передбачається модель (навіть якщо не явно) і обчислюється похибка примірки. Той факт, що алгоритми модифіковані різною евристикою, не втрачає початкової математичної підтримки. До речі, локальна оптимізація - це також математично послідовна, не кажучи вже про корисну теорію.

За цією лінією, якщо Нейронні мережі просто складають один клас методів у цілому наборі інструментів, який саме рядок відокремлює Нейронні мережі від решти методик? Насправді, SVM колись вважалися класом NN, і вони все ще фігурують у тих же книгах. З іншого боку, NN можна розглядати як (нелінійну) регресійну техніку, можливо, з деяким спрощенням. Я погоджуюся з ОП, що ми повинні шукати кращі, обґрунтовані, ефективні алгоритми, незалежно від того, ви їх позначаєте як національні мережі чи ні.


Проблема з непослідовністю полягає в тому, що не можна задавати прості запитання, такі як: Коли слід припинити навчання і відмовитися? Крім того, багато чуток, таких як "Dropot", "зниження ваги", "ReLu" і різні активації, нормалізація партії, макс. Об'єднання, софтмакс, рання зупинка, різні графіки швидкості навчання та всі перестановки та комбінації з них викликають у дизайнера завжди сумніви відмовитись чи ні в якийсь момент.
Раджеш Дачіраджу

1
@RajeshDachiraju Те саме можна сказати про коефіцієнти штрафних санкцій в алгоритмах оптимізації зовнішньої точки або розмір кроків у методах Runge-Kutta. Слово «непослідовне» має в науці точне значення, яке тут не застосовується.
Мігель

0

Я думаю, що з певної проблеми ми менше піклуємося про математичну суворість та простоту, але більше за її корисність, поточний стан - нейронна мережа, яка краще виконує певні завдання, як розпізнавання шаблонів при обробці зображень.


0

У цьому питанні багато. Давайте переглянемо те, що ви написали по черзі.

Рішення, що відповідають даним навчальних даних, є нескінченними. У нас немає точного математичного рівняння, яке задовольняє лише одне, і яке, можна сказати, найкраще узагальнює.

Той факт, що існує нескінченна кількість рішень, походить від того, що проблема навчання є невдалою проблемою, тому не може бути жодної, яка найкраще узагальнює. Крім того, жодна теорема безкоштовного обіду, який би метод ми не використовували, не може гарантувати, що він найкращий у всіх навчальних проблемах.

Простіше кажучи, ми не знаємо, що найкраще узагальнює.

Це твердження насправді не відповідає дійсності. Існують теореми про мінімізацію емпіричного ризику за допомогою Вапніка та Червоненкіса, які з'єднують кількість вибірок, розмір VC методу навчання та помилку узагальнення. Зауважте, що це стосується лише даного набору даних. Отже, з урахуванням набору даних та процедури навчання ми знаємо межі узагальнення. Зауважте, що для різних наборів даних немає і не може бути єдиної найкращої процедури навчання через відсутність теореми про безкоштовний обід.

Оптимізація ваг не є опуклою проблемою, тому ми ніколи не знаємо, чи закінчується глобальний або локальний мінімум. То чому б не просто скинути нейронні мережі і замість цього шукати кращу модель ML?

Тут є кілька речей, про які потрібно пам’ятати. Оптимізація невипуклої проблеми не така проста, як опукла; це правда. Однак клас методів навчання, які є опуклими, обмежений (лінійна регресія, SVM), і на практиці вони виконують гірше, ніж клас невипуклих (стимулювання, CNN) з різних проблем. Тож важливою частиною є те, що на практиці нейронні мережі працюють найкраще. Хоча існує ряд дуже важливих елементів, які змушують нейронні мережі добре працювати:

  1. Вони можуть застосовуватися на дуже великих наборах даних через стохастичний градієнтний спуск.
  2. На відміну від SVM, висновок з глибокими мережами не залежить від набору даних. Це робить нейронні мережі ефективними в час тестування.
  3. За допомогою нейронних мереж можна безпосередньо керувати їх здатністю до навчання (придумуйте кількість параметрів), просто додаючи більше шарів або збільшуючи їх. Це дуже важливо, оскільки для різних наборів даних вам можуть знадобитися більші чи менші моделі.

Щось, що ми розуміємо, і щось, що відповідає набору математичних рівнянь? Лінійний і SVM не мають таких математичних недоліків і повністю відповідають набору математичних рівнянь. Чому б не просто думати про ті ж лінії (не потрібно, щоб вони були лінійними) і придумати нову модель ML краще, ніж Linear і SVM, нейронні мережі та глибоке навчання?

Скидання речей, які працюють через нерозуміння їх, не є великим напрямком досліджень. Докладати зусиль для їх розуміння - це, з іншого боку, великий напрямок досліджень. Також я не погоджуюся з тим, що нейронні мережі суперечать математичним рівнянням. Вони цілком послідовні. Ми знаємо, як оптимізувати їх та виконувати умовиводи.


-2

Як щодо перегляду нейронних мереж з експериментальної точки зору? Тільки тому, що ми їх створили, не означає, що нас зобов’язують зрозуміти їх інтуїтивно. Або що нам не дозволяють грати з ними, щоб краще зрозуміти, що вони роблять.

Ось декілька думок, які я маю щодо них:

  • Структура: вони є ієрархії. Вони схожі на дерева, які діляться вхідними даними. Коріння - це вхідні дані, а листя - вихідний шар. Чим ближче шар до виходів, тим релевантніший він для них, тим більший рівень абстракції, який він містить (це більше про зображення, ніж про пікселі).
  • Функціональність: вони "грають" з даними, модус операнді полягає в експерименті з відносинами в нейронах (вагах), поки речі не "натиснуть" (межа помилки прийнятна).

Це відповідає тому, як ми думаємо. Це навіть відповідає тому, як діє науковий метод. Отже, розбиваючи нейронні мережі, ми можемо також вирішувати загальне питання про те, що являє собою знання.


-3

Не забувайте, існує велика область досліджень, що використовують ЛМ, ГЛМ, багаторівневе моделювання. Останнім часом байєсівські методи та гамільтоніанський Монте-Карло (спільнота STAN справді передує цьому) набули повноліття і низка проблем, які STAN вирішує дуже легко, і їм не потрібні ні сітки, ні глибокі мережі. Дослідження соціальних наук, мікроекономіка - це два (великі) приклади таких напрямків, які швидко сприймають Стен.

Моделі Стен дуже «читабельні». Коефіцієнти насправді мають задню розподільну інтерпретацію, і це роблять прогнози. Пріорі є частиною процесу генерування даних і не потрібно поєднувати їх, щоб бути ефективними (як, наприклад, гібби). Встановлення моделі в квартирі - це захоплення, воно насправді налаштовує дотепні параметри MCMC автоматично досить гарно, і попереджає вас, коли розвідка застряє з дуже приємними візуалізаціями.

Якщо ви ще не пробували це вже побачити дивовижні демки STAN тут ).

Зрештою, я думаю, що люди не так багато говорять про цей матеріал, оскільки дослідження в цій галузі та проблеми не настільки "сексуальні" / "круті", як у НН.


-5

Що зазвичай відбувається, коли немає математичної послідовності (як мінімум у цьому випадку нейронних мереж) ... коли це не дає результатів за бажанням, на тестовому наборі ваш начальник повернеться і скаже ... Ей, чому б ти не спробуйте відкиньтеся (який вага, який шар, скільки головного болю, оскільки математичного способу не визначити), тож після того, як ви спробуєте і, сподіваємось, отримаєте незначне поліпшення, але не бажане, ваш начальник повернеться і скаже, чому не спробувати зменшення ваги (який фактор?)? і пізніше, чому ви не спробуйте ReLU чи якусь іншу активацію на деяких шарах, і все одно ні, чому б не спробувати "максимум об'єднання"? все ще ні, чому б не спробувати нормалізацію партії, все ще ні, або принаймні конвергенцію, але не бажаний результат. просто змінити архітектуру мережі? і повторіть все вище в різних комбінаціях! Тримайте це в циклі, поки вам це не вдасться!

З іншого боку, коли ви намагаєтеся послідовно SVM, після конвергенції, якщо результат не хороший, тоді добре, лінійне ядро, яке ми використовуємо, недостатньо добре, оскільки дані можуть бути не лінійними, використовуйте ядро ​​іншої форми, спробуйте ядро іншої форми, якщо у вас є якісь передумки, якщо їх все ще немає, просто залиште його, це обмеження SVM.

Що я кажу: нейронні мережі настільки непослідовні, що це навіть не помиляється! Він ніколи не приймає своєї поразки! Інженер / дизайнер бере на себе тягар, якщо він не працює, як бажано.


3
Здається, це не містить відповіді на ваше власне запитання. Як ви думаєте, ви могли б відредагувати це так, щоб звучати не так, як звук, і зрозуміти, яким чином це пояснює, чому нейронні мережі та глибоке навчання можуть бути кориснішими, ніж модель ML (яка, здається, є вашим початковим питанням)?
Срібна рибка

1
Його сенс полягає в тому, що з SVM ми знаємо, коли ми зробили так добре, як можемо, але з NN ми не можемо знати. Можливо, з огляду на легкість, яку DL обдурює, навіть такі показники, як помилка, не говорять про те, наскільки добре ця модель справді працює.
yters

1
@ yters, так, але коментар сріблястої рибки був у тому, що це не відповідь на те, чому б не скинути DL. Це ближче до перегляду питання. Я б запропонував об'єднати це питання.
P.Windridge
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.