Вивчення алгоритмів машинного навчання: глибина розуміння та кількість алгоритмів


13

Нещодавно мене познайомили з галуззю наукових даних (минуло 6 місяців), і Ii розпочав подорож з курсу машинного навчання Ендрю Нґ та посадою, яка почала працювати над спеціалізацією JHU з наукових даних.

На практичній практиці я працював над створенням прогностичної моделі, яка б передбачала погіршення. Поки я використовував glm, bayesglm, rf, прагнучи вивчити та застосувати ці методи, але я знаходжу багато розбіжностей у розумінні цих алгоритмів.

Моя основна дилема:

Чи варто мені зосереджуватися більше на вивченні тонкощів кількох алгоритмів, або я повинен використовувати підхід до знання багатьох з них як і коли, і стільки, скільки потрібно?

Підкажіть, будь ласка, у правильному напрямку, можливо, запропонувавши книги чи статті чи що-небудь, що, на вашу думку, допоможе.

Буду вдячний, якби ви відповіли ідеєю керівництва тим, хто щойно розпочав свою кар’єру в галузі наукових даних і хоче стати людиною, яка вирішує практичні питання для ділового світу.

Я прочитав би (якомога більше) ресурсів (книг, статей), запропонованих у цій публікації, і надав би особисту інформацію про плюси і мінуси, щоб зробити це корисним повідомленням для людей, які стикаються з подібним питанням в майбутньому, і я думаю, що було б чудово, якби люди, які пропонують ці книги, могли зробити те саме.

Відповіді:


9

Я рекомендую обмежити себе кількома перевіреними алгоритмами. Я б не рекомендував Елементи статистичного навчання (як першу книгу). Це занадто теоретично, орієнтоване на аспірантів, з вправами із запитаннями, як довести X чи Y ... Я думаю, ISL є більш доречним, з більш практичними порадами (у будь-якому випадку обидві книги безкоштовні як завантаження у форматі PDF).

Окрім статистики, я би переконався, що вам подобається експериментальний дизайн / тести AB та бізнес-інтелект / візуалізація.


Будемо вдячні, якщо ви можете запропонувати деякі алгоритми, які не слід ВІДКЛЮЧИТИ, або краще сказати, є найбільш корисними для вирішення практичних бізнес-питань. Якщо можливо, будь ласка, згадайте найкращі способи їх вивчення (окремі книги, статті самодопомоги або можуть бути спроби та помилки)

2
Я б сказала майже всі альги в ISL: лінійна регресія, логістична регресія, методи на основі дерев, SVM; Кластеризація та зменшення розмірів, наприклад, PCA. Перегляньте книгу і подивіться відповідний онлайн-курс ( online.stanford.edu/course/statistic-learning-winter-2014 - можливо, на youtube?).
seanv507

Чудовий ресурс, добре мати книгу та відео на них самими авторами. Дякую багато за посилання, про це не знали.
Vinay Tiwari

Вибачте, але це жахлива порада. Науковець даних ніколи не повинен покладатися на кілька алгоритмів. Вам потрібно покладатися на власні навички даних та аналізу, і немає двох проблем із даними. Деякі з них будуть вирішені з X, інші з Y. Просто очікувати, що Всесвіт даних зможе скористатися вашими кількома алгоритмами, просто не розумно. Будьте допитливі, будьте гнучкі, будьте обізнані та використовуйте правильний інструмент для роботи, а не лише ті, які вам трапляються знати.
I_Play_With_Data

5

Можливо, хтось, називаючи себе вченим, повинен знати більше про тонкощі алгоритмів, які він використовує - наприклад, що впливає на швидкість конвергенції алгоритму оцінювання Фішера в GLM - ніж звичайний або садовий статистик - який може бути задоволений лише тим, що знає, що максимально вірогідне рішення знайдеться (можливо, після того, як вони зроблять чашку кави). У будь-якому випадку розуміння загальних понять статистики та машинного навчання є важливим на додаток до ознайомлення з методами, якими ви користуєтесь - теорією, що їх спирається, припущеннями, які вони роблять, які діагностичні перевірки ви повинні виконати, як інтерпретувати результати. Уникайте цієї пародії .

Вам, напевно, сподобається читати Hastie та ін. (2009), Елементи статистичного навчання .


Напевно прочитає! Дуже сподобався останній рядок ... я думаю, що потяг, а іноді і тиск, щоб отримати результати якнайшвидше, призводять до таких пародій. І не менш важливо уникати протилежного цьому, коли людина піде настільки глибоко в навчанні, що стає непотрібним для реальних проблем світу. при зростанні / навчанні іноді важливіше знати, що НЕ робити, велике спасибі за керівництво сподіваюсь побачити більше таких розумінь, які б просвітили мене та інших людей на подібній Подорожі.

"що впливає на швидкість конвергенції алгоритму оцінювання Фішера в GLM" - я думаю, ви втратили тут 99% даних вчених.

@Momo: Ну, "науковець даних" - це один із тих недоброзичливих термінів, які ледь здобули валюту, перш ніж почати знецінюватися.
Scortchi

2

Ну, я б сказав, детально знати тонкощі алгоритмів 1 або 2 (як внутрішня робота їх параметрів), безумовно, краще, ніж знати, як запустити купу з них.

Я працював у зоні Analytics близько 11 років, а вчений з даних - 2,5 роки, і кажу з досвіду. З іншого боку, ви, безумовно, повинні знати про інші речі (новітні алгоритми, такі як глибоке навчання, SVM, XGboost тощо), які можуть бути більш застосовними до вашої проблеми.

Я думаю, що курс доктора Ендрю Нґ входить у декілька деталей деяких алгоритмів, і це вдалий початок. Як зазначали інші, http://statweb.stanford.edu/~tibs/ElemStatLearn/ - це хороша книга, і у неї є відео, з якими можна попроситись.

Це моя особиста думка, алгоритми, які ви не повинні пропустити: (Знайте це докладно):

1) Множинна лінійна регресія 2) логістична регресія 3) загальні методи зменшення розмірності, такі як PCA 4) кластеризація K-засобів 5) нелінійна регресія 6) методи оптимізації: методи пошуку на основі градієнта, лінійне програмування та дискретна оптимізація 7) поняття та алгоритми 8) Прості методи прогнозування часових рядів

Більше езотеричних алгоритмів:

1) Випадкові ліси 2) SVM 3) глибоке вивчення 4) Інші методи зменшення розмірності, як LDA 5) Інші методи на основі ядра 6) Генетичні алгоритми 7) XgBoost 8) Динамічна регресія 9) методи GARCH / ARCH 10) моделювання структурних рівнянь 11) Методи Бенкінса в прогнозуванні часових рядів 12) Теорія інформації: приріст інформації, взаємна вигода тощо.


0

Я був у подібній ситуації. Я почав з кожного алгоритму тут (і дуже докладно).

введіть тут опис зображення

Однак я незабаром з’ясував, що академія в машинному / глибокому навчанні рухається реально швидко, і завжди придумує більш швидкі / найсучасніші алгоритми, які пройдуть довгий шлях, щоб перевершити традиційні алгоритми в багатьох реальних програмах . Отже, завжди бажано оновлюватись останніми тенденціями. Я пропоную (як я зазвичай це роблю сам) взяти підписку на хороший ефір новин (як Medium) або дивовижного, передового журналу досліджень та дотримуватися його. Багато разів дивовижні алгоритми виходять із наукових праць, які вирішують певну проблему (можливо, схожу на вашу).

Справа в тому, щоб бути хорошим науковцем даних (або інженером з ML), вам потрібна суміш як глибини, так і ширини. Мені особисто корисно знати багато алгоритмів на їх поверхні (просто що вони роблять, коли їх використовують, плюси і мінуси). Я повертаюся до них, коли відчуваю ( тільки відчуваю ), що вони можуть допомогти мені вирішити певну проблему. Я детально їх читаю і бачу, чи добре вони підходять. Вони можуть бути, а можуть і не бути. Але продумати деталі важливо, щоб не пропустити дивовижний підхід до своєї проблеми через відсутність розуміння цього підходу. Наприклад, одного разу я працював над тим, що вимагало виявлення об'єктів (хоча дуже просто). Я десь читав про R-CNN, Fast-CNN, YOLO. Я негайно звернувся до них, щоб побачити, чи добре вони підходять. Того дня я їх знав більш докладно.

Чи варто мені зосереджуватися більше на вивченні тонкощів кількох алгоритмів, або я повинен використовувати підхід до знання багатьох з них як і коли, і стільки, скільки потрібно?

Вивчення тонкощів дивовижне. Однак світ рухається реально швидкими темпами. Можливо, з’явиться новий алгоритм, який перевершить того, кого ви дізналися з великою деталізацією. Час, отже, вимити з цього використання та побачити, чи принесе вам більше користі.

Дізнайтеся, коли це потрібно. А коли потрібно, вивчіть їх докладно. Ви повинні вміти застосовувати речі, якщо відчуваєте, що вони, ймовірно, можуть працювати. І це розуміння походить від знань.

Удачі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.