З чого почати зі статистики для досвідченого розробника


47

Протягом першої половини 2015 року я пройшов курс машинного навчання (Ендрю Нг, ВЕЛИКИЙ курс). А також засвоїли основи машинного навчання (лінійна регресія, логістична регресія, SVM, нейронні мережі ...)

Також я був розробником 10 років, тому вивчення нової мови програмування не було б проблемою.

Останнім часом я почав вивчати R з метою реалізації алгоритмів машинного навчання.

Однак я зрозумів, що якщо я хочу продовжувати вчитися, мені знадобляться більш офіційні знання статистики, в даний час я маю неформальні знання про неї, але настільки обмежені, що, наприклад, я не міг належним чином визначити, яка з кількох лінійних моделей було б краще (зазвичай я схильний використовувати R-квадрат для цього, але, мабуть, це не дуже гарна ідея).

Тож мені здається доволі очевидним, що мені потрібно вивчити основи статистики (я вивчав це в університеті, але забув більшість із нього), де я повинен навчитися, будь ласка, зауважте, що мені зовсім не потрібен повністю комплексний курс, просто щось що протягом місяця дозволяє мені знати достатньо, щоб я міг зацікавитись та дізнатися більше :).

Поки я читав про " Статистика без сліз ", будь-яку іншу пропозицію?


2
Для статистики: Casella, G. та RL Berger (2002): Статистичні умовиводи, Дюксбері. Для економетрики: Хаяші, Ф. (2000): Економетрика, Прінстонський університетський прес. Інша точка зору: stats.stackexchange.com/questions/91863/…
Guilherme Salomé

Я додав referencesтег. Можливо, ви хочете проглянути першу сторінку звернень на цю тему.
Glen_b

3
Я не бачу, щоб це було закрито. Я бачу аргумент, щоб зробити це CW, хоча.
gung - Відновіть Моніку

2
З моєї точки зору, знання будуть упередженими, якщо ви почнете вивчати статистику без ознайомлення з теоріями ймовірностей раніше.
Менаріат

2
Я хотів би додати одне застережливе слово. Я впевнений, що ви вже певною мірою це розумієте, але я просто хочу це сказати. Я є докторантом / аспірантом. За фахом доктора медицини планую займатися внутрішньою медициною. Для свого доктора я вивчаю біостатистику. Я хочу, щоб ви знали, що за 1 місяць ви більше не можете оволодіти статистикою, ніж ви можете оволодіти медициною за один місяць. Я ні в якому разі не намагаюся відштовхувати вас від вивчення статистики. Якраз навпаки, сподіваюся, ви це чудово розумієте. Але просто зрозумійте, що це не менш важливо, ніж, наприклад, бажати бути розробником.
Вінсент Лауфер

Відповіді:


26

Я б запропонував вам основну дорожню карту щодо її досягнення:

Бонус:

Чудовим сайтом для таких дорожніх карт є Metacademy , який я особисто став би одним із найкращих ресурсів Data Science в Інтернеті.

Gitxiv - це ще один прекрасний сайт, який пов’язує наукові роботи Arxiv щодо Data Science з відповідними реалізаціями / бібліотеками з відкритим кодом.


2
ОП вже взяв курс на Нг, саме це спонукало його задати питання в першу чергу.
Аксакал

4
@Aksakal Я це помітив. Але, включив його як частину дорожньої карти. Насправді нічого б не змінило, тому я подумав, що включення це допоможе іншим, хто читає цю публікацію.
Dawny33

12

Ви перевірили або Think Stats, або Think Bayes - це обидві (безкоштовні) книги статистики, орієнтовані на програмістів і з великим кодом Python.

Крім того , якщо ви зацікавлені у вивченні R тоді CRAN має багато (безкоштовно) PDFs , які ви можете перевірити, наприклад, введення в ймовірності і статистики з використанням R . Існує також курс Coursera, який використовує R, який дуже багато людей люблять (вони використовують цей підручник , який ви, можливо, хочете перевірити, і в лабораторії DataCamp , я вважаю).

Крім того, якщо ви хочете визначитися з кількома темами статистики, ви завжди можете переглянути кілька відеороликів у Академії Хана .


Мені подобаються Think Stats і Think Bayes, але вони свідомо уникають багато формальної статистичної теорії на користь того, щоб все зробити за допомогою коду. Чудово підходить для розуміння цього питання, але не настільки добре, якщо ваша мета - зрозуміти основоположну теорію.
Маріус

@Marius: Я знаю, що ти маєш на увазі. Однак я думав, що тому, що він уже програміст, а також тому, що він, здається, хоче «чогось маленького, простого і швидкого», що це може бути більше того, що він шукає.
Стів S

8

Якщо ви коли-небудь, навіть у далекому минулому, вміли вирішувати проблеми у цьому списку , тоді вам слід спробувати вивчити прикладну статистику "належним чином". Я дам вам простий двошаговий алгоритм.

По-перше, швидше за допомогою теорії ймовірностей. Є багато чудових книг. Моя улюблена - класична книга Феллера. Це називається "Вступ", але не обманюйте його заголовок, він настільки глибокий, як ви хочете піти, але дуже добре написаний і простий, якщо ви просто хочете пропустити поверхню.

Другий крок - статистика. Знову ж таки, є чудова книжка. Я дам вам один, який я використав, гідний вступний текст Гуджараті "Основна економетрія", четверте видання. Економетрика - це статистика, що застосовується до економіки. Для довідки, хлопець, котрий всі вважають, сказав, що вчений з даними буде найсексуальнішою роботою в наступні 10 років - це Хал Варіан, економіст з Берклі. Багато матеріалів машинного навчання базується на базовій статистиці, регресіях тощо. Все, що розглядається в цій книзі, і вам не потрібно все це читати, це написано таким чином, що ви можете вибирати глави у своєму власному порядку.

Ви здивуєтеся, побачивши, скільки прогалин залишилося відкритим після того, як клас Нг швидко заповнюється під час читання цих текстів.

Як практикуючий, вам не потрібно занадто багато теорії після цих двох кроків. Ви можете продовжувати вивчати техніку ML, зокрема читаючи книги в цій галузі. Важливо не заглиблюватися на початку в ймовірність та статистику. Спершу одержуйте свій код для ML та заповнюйте пробіли в міру подальшого використання.


4

Усі рекомендують Casella & Berger, який майже повсюдно використовується у програмах статистики випускників. Це не поганий довідник, але я не впевнений, що зробив би більше, ніж просканувати перші 4-5 глав. Я не думаю, що вам не потрібна теорія, як побудувати тест типу Неймана-Пірсона, перш ніж заглиблюватися в "статистику", тобто аналіз даних.

Натомість я б зосередився на методах навчання. Моя аспірантура використовувала застосовані лінійні статистичні методи для випробувань частолістів, і це досить пристойне вичерпне посилання, але це може бути не найбільш доступною книгою з точки зору самонавчання. Курс або два з MIT або курсу може бути кращим способом почати з цього, тому що ви отримаєте більш широкий огляд з більшою кількістю прикладів, ніж ви могли б прочитати книгу.

Для Байєса книга, яку я бачив найчастіше, - це Doing Bayesian Analysis Data , який поставляється із зображеннями цуценят (очевидно, це робить книгу вищою за інші вступні підручники Баєса). Я ніколи не користувався цією книжкою, але я пройшов її під час перегляду, і це здається досить пристойним - набагато кращим, ніж книга Гельмана, яку я виявив дещо незрозумілою ПІСЛЯ двох класів у байєсівській статистиці - пояснення жахливі.


1
Перші 5 глав C&B насправді взагалі не є статистикою, більше нагадують передісторію ... Поняття статистики розглянуто на початку 6-го розділу! Більш того, методи навчання, ймовірно, не допоможуть цій конкретній людині. це допомогло б йому застосувати статистику, а не зрозуміти, що саме йому потрібно. якщо він просунув математичну підготовку, він, ймовірно, може пропустити його до певної міри, але його відповідь говорить про те, що він наразі не в змозі зрозуміти основи ML ... що, напевно, говорить про те, що його математика обмежує (принаймні, для мене). C&B може бути непоганим місцем для початку.
Вінсент Лауфер

1
Вони можуть бути не статистикою, але передумови розподілу ймовірностей є важливими для того, щоб робити будь-яке моделювання - вам потрібно знати, що таке розподіл Бернуллі, і які його властивості, перш ніж ви зможете зрозуміти, наприклад, логістичну регресію. Я все ще періодично посилаюся на C&B, але я не думаю, що я ніколи не використовував нічого, що виходить за межами 6-го розділу, поза класом, який я взяв, що використовував цю книгу.
srvanderplas

1
Я цілком погоджуюся з тим, що ви сказали, але це стосується відступу, а не головного моменту - в чому я винна в першу чергу додати відступ. У будь-якому разі, головний момент полягає в тому, що, як підкреслили декілька інших, те, що насправді потрібно зробити, - це краще розуміння теоретичної математики та статистики. ні, де у публікації не зазначено, що йому потрібна допомога у застосуванні більше статистичних тестів. він може це зробити. він хоче глибше зрозуміти їх. для цього C&B краще, ніж більше вивчити підготовку, орієнтовану на застосування.
Вінсент Лауфер

3

Це не є повною відповіддю, це лише пропозиція. Якщо ви хочете дізнатися більше про статистику (фундамент), ви можете прочитати:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Це досить стандартна книга для статистиків, і вона має масу цікавих результатів. Вам не потрібно проходити всі докази теорем, але ви, можливо, захочете зробити кілька вправ, щоб відчути себе більш безпечно з результатами.

Якщо ви хочете дізнатися більше про економетрику (моделі даних), можете поглянути:

Hayashi, F. (2000): Econometrics, Princeton University Press

Хтось ще насправді запитав щось подібне до того, що ви запитали, і отримав приємну відповідь: Що робити після "Casella & Berger" .

Крім того, якщо ви дійсно маєте намір прочитати ці книги, цей навчальний план курсу економетрики може дати вам досить непоганий напрямок та темп того, що читати (CB & Hayashi) та коли читати.


Дякую за пропозицію, проте перша книга, яку ви згадуєте, становить близько 660 сторінок ... Я читав більші книги, але чи є щось маленьке, просте і швидке, щоб я міг зрозуміти це?
Хуан Антоніо Гомес Моріано

3
Казелла та Бергер дадуть вам шматочок теорії статистики, але ви дуже мало дізнаєтесь про аналіз даних.
Glen_b

1
@JuanAntonioGomezMoriano, наскільки ти був маленьким? Я завжди був шанувальником того, як лежати зі статистикою як вихідною точкою.
icc97

(-1) Це звучить як ідеальний вибір для тих, хто віддає перевагу математичному чи теоретичному підходу до статистики, майже навпаки тому, що вимагала ОП.
Гала

1
Він сказав, що йому потрібні "формальніші" знання та основні знання про статистику.
Гільгерме Саломе

2

Я б запропонував нову книгу, яка вийшла після початкового запитання: Статистичне переосмислення: Байєсівський курс з прикладами в R та Stan від Річарда МакЛарета, CRC Press.

Це дуже добре написано і використовує байєсівський підхід. Це дуже інтерактивно, і вам захочеться вирішити проблеми, або ви можете пройти на півдорозі і почати губитися.

Він починається дуже просто і закінчується багаторівневими моделями, і він орієнтований на досить прогресивних вчених, які мають деякі статистичні знання, але не відчувають себе в цілому зі статистикою, як це їм було навчено. Тому я не можу точно сказати, що це книга для початківців, але вона починається дуже просто, і він має чудову дугу та стиль.

Частина заголовка «Стен» є інструментом вибірки Байєса загального призначення. По суті, це мова програмування, яка автоматично збирається на C ++ і потім збирається у виконуваний файл. (Байєсівський висновок загальний, на відміну від альтернативних, тому ви можете мати узагальнений інструмент.)


1

Думаю, я б накинув цю відповідь для нащадків, навіть якщо це, ймовірно, пізно, щоб бути корисним вам. " Статистика всіх" Ларрі Вассермана була задумана як курс для людей, які мають досвід машинного навчання, інших дисциплін, математики чи математики, які не мали жодної формальної підготовки до статистики, тобто для людей, які знаходяться у вашій ситуації. Маючи аналогічну відсутність формальної статистики, кілька друзів і я сформували групу самонавчання, щоб пройти її в школі. Я думаю, що я справді отримав користь від цього досвіду.

Додаткові теми, які Вассерман викладає за межі типового навчального матеріалу "вірогідність та статистичні умови", як графічні моделі та завантаження, особливо актуальні для тих, хто працює в машинному навчанні. Я мушу сказати, що книга може бути досить короткою порівняно з чимось на кшталт Casella & Berger, тому, якщо ви хочете детальніше або мотивувати певні частини (особливо докази), можливо, доведеться доповнити її іншим матеріалом для читання. З цього приводу я також вважав, що книга чітко написана з великою кількістю проблем з практикою, і це чудова швидка довідка.

Один місяць - це не багато часу. Якщо ви задасте дуже агресивний темп, я думаю, ви, звичайно, зможете багато чого вийти з цього тексту за один семестр: наприклад, ми зробили нашу групу самонавчання впродовж літа. Це особливо вірно, якщо вас найбільше цікавить лінійне моделювання, яке вас вразить Ch. 13-14.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.