Чи є сильним фоном у математиці загальний реквізит для ML?


37

Я починаю хочу просунути свій власний набір навичок, і мене завжди захоплювало машинне навчання. Однак шість років тому, замість того, щоб цим займатися, я вирішив взяти зовсім непов’язаний ступінь з інформатикою.

Я розробляю програмне забезпечення та додатки вже близько 8-10 років, тому в мене є хороша ручка, але я просто не можу проникнути в математичну сторону машинного навчання / ймовірностей / статистики.

Я починаю розглядати навчальний матеріал, і на першій сторінці він може містити щось, що мене бентежить, і негайно встановлює бар’єр у моєму навчанні.

  • Чи є сильним фоном у математиці загальний реквізит для ML? Чи варто спробувати заповнити пробіли моєї математики перед тим, як продовжувати ML? Чи може самостійне навчання насправді працювати лише для розробника без будь-якого жорсткого досвіду інформатики?

Питання, пов'язані з цим:


4
Я б сказав, що вам потрібно розуміти лінійну алгебру як мінімум і, мабуть, також деяку ймовірність для байєсівських додатків. Вам також потрібно бути зручним перекладом математики в код, а також бути пристосованим щодо умовних позначень (що зовсім не відповідає). Для більшості вчених-комп’ютерів ML також не є простим.
Джон Моеллер

3
Я не вірю, що питання взагалі пов'язані. Дякуємо за те, що ви зробили це дуже привабливим сайтом для обміну статкою та закрили питання. Я навіть не згадав нікого, щоб рекомендувати мені книгу. Це не дублікат на основі "можливого дубліката"
Layke

2
Я створив нитку на мета (8 годин тому) з проханням відновити це. meta.stats.stackexchange.com/questions/1442/…
Дуглас Заре

1
Дякую. Це все ще може бути закритим як "занадто суб'єктивне" або "не справжнє питання", але це точно не дублікат.
Лайке

1
Layke, як пояснено в метапотоці, розпочатому @Douglas Zare, ми сподіваємось, ви вважаєте, що закриття цього питання потенційною послугою для вас, оскільки воно одразу дає вам доступ до пов’язаних тем, які, ймовірно, вже відповідають на ваше запитання. Але оскільки ви прокоментували, що це не дублікат думки, ви б проти того, щоб редагувати своє питання, щоб зрозуміти, у якому сенсі він не дублює подібні запитання на цьому сайті? Тоді ми були б раді його знову відкрити.
whuber

Відповіді:


23

Стенфорд (Нг) та Калтех (Абу-Мостафа) розмістили уроки машинного навчання на YouTube. Ви не можете побачити завдання, але лекції не покладаються на них. Рекомендую спробувати переглянути їх першими, оскільки вони допоможуть вам з’ясувати, яку математику вам потрібно вивчити. Я вважаю, що дуже схожий клас із завданнями викладає Ендрю Нг на Coursera, який Нг допоміг створити.

Один виняток: якщо я правильно пригадую, на початку лекцій про Стенфорді, Ng проводить деякі обчислення, що включають похідні від слідів продуктів матриць. Вони є досить ізольованими, тому не хвилюйтесь, якщо ви не будете дотримуватися цих розрахунків. Я навіть не знаю, який курс охоплював би це.

Ви хочете ознайомитись з ймовірністю, лінійною алгеброю, лінійним програмуванням та багатовимірним обчисленням. Однак вам потрібно набагато менше, ніж те, що міститься в багатьох повних класах коледжів з цих предметів.



15

Залежно від виду програми, вам не обов'язково потрібно багато математики як практикуючий ML.

Як програміст-самоучок (~ 15 років) і часто припиняючи навчання в коледжі без особливих знань з математики (Calculus III) або статистики, я почав з машинного навчання / пошуку даних з кількома ресурсами:

  • Книга "Освоєння майнінгу даних: мистецтво та наука управління відносинами з клієнтами" Беррі та Ліноффа

  • Книга "Техніка видобутку даних" тих самих авторів

  • R, зокрема і партії пакетів і мережа

Я працюю в некомерційній підтримці маркетингу та операцій. Особливо на початку, я використовував пошук даних в основному для звернень із прямою поштою.

Пізніше я взяв лінійну алгебру, машинне навчання Ендрю Нґ, вступ до статистичних методів (STAT 301) в ЦСУ тощо.

Для вас я рекомендую почати з двох книг, курсу Ендрю Нґ і, залежно від вашої заявки, дерев рішень (пакет партії в R).


9

Я думаю, що це справді гарне запитання і дуже актуальне; Я не впевнений, чи є відповідь. Недавня стаття порушила безліч суперечок (див. Тут ), припустивши, що науку про дані легко вивчити в Інтернеті. Одне помітне, що стосується більшості тематичних досліджень, згаданих у цій статті, - це те, що вони походять з актуарного чи математичного походження.

Це цікавий момент, оскільки він вказує на те, що хоча онлайн-курси, такі як Coursera, Stanford та edX, корисні для викладання потрібних навичок інформатики, можливо, для розуміння того, що роблять моделі, які ви застосовуєте, є певне математичне підґрунтя. . З іншого боку, можна зробити так само сильний аргумент, що для цих хлопців усі аналітично налаштовані для початку, і це є причиною того, що вони працюють у кількісних дисциплінах, а також чому вони легко підбирали машинне навчання та вигравали змагання.

Я принципово думаю, що тут існує проблема рівня аналізу. Хоча математичні навички іноді корисні для розуміння ймовірнісних коренів алгоритмів, які ви застосовуєте, можна зробити рівний аргумент, що хороші навички програмного забезпечення можуть додавати стільки ж, дозволяючи робити аналіз високого рівня та складати частини алгоритмів щоб досягти своєї мети, навіть якщо ви не зовсім розумієте, чому вони це роблять . Взагалі наука даних (і машинне навчання за асоціацією) є захоплюючим напрямком саме завдяки цій широті - ви можете бути хлопцем у базі даних і використовувати грубу силу для вирішення проблем, або математиком, який використовує моделювання, або комп'ютерним науковцем, який використовує добре розроблений код для оптимального поєднання різних алгоритмів та підходів.

Усі підходи, які доповнюють прогнозування, є хорошими, тому я б сказав, що вивчення якоїсь математики може бути гарною ідеєю, щоб дати вам найкращі шанси на успіх у цій галузі. Якщо ви хочете гарних вихідних точок, MIT має чудовий курс лінійної алгебри , з приємними обчислювальними програмами, які мені було легко зрозуміти. Вони також проводять інші курси зі стохастичних процесів та багатовимірного обчислення, які також можуть зацікавити формування ваших знань.


Те, що не аналітично налаштовані люди (або не, або погані абстрактори) не дуже допомагають спрощенням математики, мене завжди хвилювало (+1). Також сподобався курс лінійної алгебри Странга, але чи не лінійна алгебра є першою математикою, яку затьмарили обчислення грубої сили? що стосується наукових даних - це легке посилання, напевно, хтось уже підняв, але в змаганнях зі штучним фондовим ринком 1 або 2 тисячі плюс аматуризми звичайно били експертів - тож будь-хто може отримати акції збору рикків!
фанерон

4

Чи є сильним фоном у математиці загальний реквізит для ML? - відповідь і деякі міркування щодо ML, що розуміється як статистика ;-)

Близько 1990 року я сподівався, що комп'ютерна алгебра допоможе, я думаю, що це є, але вона досить обмежена. Але це, безумовно, допомагає прискорити вивчення математики (менше потрібно розвивати навички маніпуляції на практиці або намагатися обійтися, просто вміючи робити прості вправи). Я вважав Лінійну алгебру Фреда Сабо з Mathematica прекрасним прикладом цього (але я вже взяв передову курс лінійної алгебри рівня теорії.)

Я працюю з 1988 р. (Використовуючи комп'ютерні інтенсивні методи, щоб "конкретизувати" теорети і принципи зі статистики - точно), щоб відповісти "ні", або, принаймні, не потрібно (для статистики). Завжди завжди можна буде зрозуміти швидше та загальніше за допомогою додаткової математичної майстерності та розуміння. Я думаю, що я починаю наближатися, але потрібно маніпулювати вмілим уявленням моделей, що генерують ймовірність, і висновок, що є дійсним і корисним для більш ніж просто проблем із іграшками.

Чи варто спробувати заповнити пробіли моєї математики перед тим, як продовжувати ML?

Це важке починання - в MHO майже кожен, хто розуміє статистику, потрапив туди, маючи дуже зручне маніпулювання стандартом і особливо не настільки стандартними математичними уявленнями моделей генерації ймовірностей та математичними характеристиками умовиводів (верхній х% математичної статистики Phds). Тож це не просто здобувати основи, а бути справді комфортною з математикою. (Як осторонь, для мене важлива була теорія Фур'є.)

Чому ці уявлення важкі (навіть з великою кількістю математики)?

Герд Гігеренцер майже впевнений, що з простою хворобою позитивною / негативною задачею з позитивною / негативною проблемою з використанням природних частот не виникає проблем ». Посилання на пов'язане запитання, здається, добре використовує цей http://www.autonlab.org/tutorials/prob18.pdf

Чому це важко узагальнити?

Для k тестів (повторних і або різних) - 2 ^ k

Для тестів, які приймають значення v - v ^ k

Отже, для двійкових невідомих - ймовірності вибіркового шляху 2 * v ^ k

Для p множинні двійкові невідомі 2 ^ p * v ^ k

Для p множинні раціональні невідомі Q ^ p * v ^ k

Можна швидко перейти до математики з рахунковими і незлічуваними нескінченностями, щоб впоратися з цим, що навіть за допомогою математичної експертизи призводить до багатьох непорозумінь і начебто парадоксів (наприклад, парадокс Бореля?)

Крім того, існують лінійні та нелінійні небезпечні непорозуміння (наприклад, приховані небезпеки визначення неінформативних приорів Winbugs та інші MCMC без інформації для попереднього розповсюдження ) та взаємодії та випадкові ефекти тощо.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.