Що навчитися після Casella & Berger?


22

Я чистий студент з математики, малий досвід прикладної математики. З минулої осені я відвідував заняття з книги Casella & Berger, і закінчив сотні (230+) сторінок проблем із фізичними вправами в книзі. Зараз я перебуваю в главі 10.

Однак, оскільки я не користувався статистикою або не планував стати статистикою, я не думаю, що зможу регулярно вкладати час для продовження аналізу даних. Досвід мого досвіду говорить про те, що, щоб бути статистиком, потрібно мати багато втомливих обчислень, що включають різні розподіли (Weibull, Cauchy, , ...). Я вважав, що основні ідеї прості, але реалізація (наприклад, LRT в тестуванні гіпотез) все ще може бути складною через технічні особливості.тЖ

Чи правильно я розумію? Чи є спосіб я дізнатися ймовірність та статистику, яка не лише охоплює більш досконалий матеріал, але також може допомогти у випадку, якщо мені потрібен аналіз даних у реальному житті? Чи потрібно витрачати 20 годин в тиждень на ньому , як раніше?

Хоча я вважаю, що у вивченні математики немає королівської дороги, я часто не можу не задатися питанням - більшість часу ми не знаємо, що таке розподіл для реальних даних про життя, тож яка мета нам зосередитись виключно на різних сімействах розповсюдження ? Якщо розмір вибірки невеликий, а центральна гранична теорема не застосовується, то як ми можемо правильно проаналізувати дані, крім середньої вибірки та дисперсії, якщо розподіл невідомий?

Мій семестр закінчиться через місяць, і я не хочу, щоб мої знання випаровувалися після того, як я почну зосереджуватися на докторантурі. Тому я вирішив запитати. Я вивчаю R, і в мене є деякі програми програмування, але мій рівень приблизно такий же, як і мавпа з кодом.

Відповіді:


24

Я не думаю, що мені вдасться регулярно інвестувати гроші на продовження аналізу даних

Я не думаю, що Casella & Berger - це місце, де можна багато чого вивчити на шляху аналізу даних . Це місце для вивчення деяких інструментів статистичної теорії.

Мій досвід, який до цього часу говорить про те, що я є статистикою, повинен мати великі виснажливі обчислення, що включають різні розподіли (Weibull, Cauchy, t, F ...).

Я багато часу проводив як статистик, займаючись аналізом даних. Це рідко (майже ніколи) не припускає мене робити виснажливий розрахунок. Іноді це стосується трохи простої алгебри, але загальні проблеми зазвичай вирішуються, і мені не потрібно витрачати жодних зусиль на їх повторне використання.

Комп’ютер робить усі стомливі розрахунки.

Якщо я знаходжусь у ситуації, коли я не готовий прийняти досить стандартний випадок (наприклад, не готовий використовувати GLM), я, як правило, не маю достатньої кількості інформації, щоб передбачити будь-який інший розподіл, тому питання про розрахунки в LRT, як правило, суперечки (я можу їх робити, коли мені потрібно, вони просто або, як правило, вже вирішені, або виникають так рідко, що це цікаве відвернення).

Я схильний робити багато моделювання; Я також часто намагаюся використовувати перекомпонування в певній формі поряд або замість параметричних припущень.

Чи потрібно мені витрачати 20 годин + на тиждень на це, як раніше?

Це залежить від того, що ти хочеш вміти робити і як швидко ти хочеш попрацювати в цьому.

Аналіз даних - це навик, і для цього потрібна практика та велика база знань. Ви матимете частину знань, які вам вже потрібні.

Якщо ви хочете бути хорошим практиком у найрізноманітніших речах, це займе багато часу - але, на мій погляд, це набагато веселіше, ніж алгебра та таке виконання вправ Казелла та Бергера.

Деякі з навичок, які я побудував на проблемах регресії, корисні для часових рядів, скажімо, - але багато нових навичок потрібно. Тож навчитися інтерпретувати залишкові сюжети та QQ-сюжети зручно, але вони не кажуть мені, скільки мені потрібно турбуватися про невеликий удар в графіку PACF і не дають мені таких інструментів, як використання прогнозування на крок вперед помилки.

Так, наприклад, мені не потрібно витрачати зусилля на з'ясування того, як правильно робити ML для типових моделей гамма або вейбулла , оскільки вони досить стандартні для вирішення проблем, які вже значною мірою поставлені у зручній формі.

Якщо ви приїжджаєте займатися дослідженнями , вам знадобиться набагато більше навичок, які ви набираєте в таких місцях, як Casella & Berger (але навіть маючи такі навички, ви також повинні прочитати більше однієї книги).


Деякі запропоновані речі:

Вам неодмінно слід сформувати деякі навички регресії, навіть якщо ви нічого більше не робите.

Є цілий ряд непоганих книг, але, можливо, Draper & Smith Applied Regression Analysis плюс Fox і Weisberg An R Companion to Applied Regression ; Я б також запропонував вам розглянути наступне питання щодо стратегії регресійного моделювання Гаррелла

(Ви можете замінити будь-яку кількість хороших книг для Дрейпера і Сміта - знайдіть одну або дві, які вам підходять.)

У другій книзі є ряд додаткових онлайн-розділів, які дуже варто прочитати (та власний R-пакет)

-

Хороший другої порції буде Venables & Ріплі Сучасна прикладна статистика з S .

Це деяке обгрунтування досить широкого кола ідей.

Може виявитись, що вам потрібен ще якийсь основний матеріал з деяких тем (я не знаю вашого фону).

Тоді вам потрібно буде почати думати про те, які сфери статистики ви хочете / потребуєте - байєсівська статистика, часовий ряд, багатофакторний аналіз тощо тощо


6

Моя порада, що виходить із протилежної точки зору (статистика доктора) - працювати над підручником з регресії. Це здається природним відправною точкою для когось із солідним теоретичним досвідом без будь-якого досвіду. Я знаю, що багато аспірантів поза нашим відділом починають курс регресії.

Хорошим є Прикладна лінійна регресія Санфорда Вайсберга . Я вважаю, що це четверта версія. Можливо, ви могли знайти відносно дешеві старі версії.

http://users.stat.umn.edu/~sandy/alr4ed/

Одна приємна річ у цьому підручнику, особливо зважаючи на ваш відносний досвід роботи з R, - це буквар R, доступний за вищенаведеним посиланням. Він дає достатню інструкцію для відтворення всього, що зроблено в книзі. Таким чином, ви можете навчитися регресії (на додаток до деяких основ GLM), без того, що програмування R не стримує вас (і ви, мабуть, підберете багато основ R на цьому шляху).

Якщо ви хочете всебічно ознайомитись з R, вам, можливо, буде зручніше, проходячи Фокс та Вайсберг « А-компаньйон до прикладної регресії» , але це здається, що ви краще вивчите статистику, ніж програмування (якщо ці дві речі можна думати окремо).

Що стосується вашого часу, я не думаю, що ви знайдете цей підручник чи матеріал надто складним. На відміну від Казелли-Бергер, доказів чи висновків не буде багато. Це взагалі досить просто.

З іншого боку, здається, що в Інтернеті (або в якийсь момент були рішення) плаваючі рішення, тож ви можете спробувати проблеми, перевірити рішення та швидку роботу через книгу.


4

Я намагаюсь крутим способом бути самим статистиком, але я, перш за все, психолог, у якого, мабуть, є якісь кількісні та методологічні інтереси. Щоб правильно виконати психометричну роботу, я вивчав передові (для психолога) методи, які не мріяв би обчислювати вручну (набагато менше, я б знав, як). Я був здивований тим, наскільки доступними та зручними стали ці методи завдяки всім відданим зусиллям програмістів пакетів R за останнє десятиліття. Я робив аналіз у реальному житті за допомогою нових методів, які я навчився використовувати набагато менше 20 годин за метод ... Я можу витратити стільки часу на новий метод до того часу, коли буду готовий опублікувати публікацію результат, використовуючи його, але, звичайно, не потрібно робити неповний робочий день навчання лише для того, щоб досягти успіху, як у мене. Робіть те, що можете, як знаходите час на це; це не переслідування за всіма або нічого, якщо вам це не потрібно.

Я, звичайно, не зосереджувався виключно на будь-якій темі, не кажучи вже про сім'ї розподілів; Я сумніваюся, що будь-який статистик добросовісності теж би навчався так вузько. Протягом минулого тижня я кілька разів поспілкувався з теоретичними розподілами, можливо, годину на день; це було достатньо, щоб виявитись корисним у реальних додатках даних. Наскільки я можу сказати, ідея полягає не в тому, щоб чітко класифікувати розподіли; це розпізнати форми розподілу, що нагадують теорії, та використовувати їх для вирішення відповідних аналізів та розуміння основної динаміки. Я поділявся подібними думками щодо своєї останньої відповіді на тему: " Чи краще вибирати дистрибуції на основі теорії, придатності чи чогось іншого? "

Ви не сказали, який аналіз ви хочете виконати в тому, що, на мою думку, був вашим гіпотетичним найгіршим сценарієм, але є способи вивчення чутливості будь-якого аналізу до помилки вибірки. Якщо CLT не застосовується, є ще кілька статистичних питань, які ви можете задати, чи знаєте ви як. Непараметричні методи зазвичай дають дуже обмежені припущення щодо розподілу, тому попереднє знання форми розподілу населення не завжди є головною проблемою.

Знання взагалі насправді не випаровує все це швидко або повністю, але якщо ви не користуєтесь ним, вам буде важче пригадати вільно. Ви будете зберігати перевагу визнання набагато довше, що все-таки може стати в нагоді, якщо вам коли-небудь знадобиться вивчати теми, які ви вивчали за кілька років до цього… , і продовжуйте вчитися! R, безумовно, хороше місце, щоб інвестувати будь-який вільний час на навчання. Це має допомогти і з чистою математикою: див. Ще одну з моїх останніх відповідей на тему " Найкраще програмне забезпечення для візуалізації даних з відкритим кодом для використання з PowerPoint ".


3

Я натрапив на цей у 2019 році. Мої два копійки.

Я професор статистики, схильний робити аналіз даних різного роду (саме тому я вибрав статистику!). Щоб отримати деякі практичні знання, я рекомендую Джеймсу, Віттену, Хасті та Тібшірані "Вступ до статистичного навчання". Вони навіть мають MOOC на основі цього. У книзі використовується безліч прикладів "реальних даних", а також на основі R.


Чи є щось, що можна запропонувати, крім "елементів статистичного навчання"? Я думаю, що я знайомий із (основними частинами) книги зараз.
Bombyx mori

2

Відповідаючи на інших, хто пізніше прийде до цього питання ...


аналіз даних реального життя

Вивчіть бази даних (SQL), dplyr / панди, інструменти unix (sed, grep), скреблінг, сценарії, очищення даних та тестування програмного забезпечення. Різні спеціалізовані дистрибуції мають мало значення в промисловості.

Більш практичний вид теорії стане застосованою регресійною книгою на кшталт Angrist & Pischke, Faraway або Weisberg.

більшу частину часу ми не знаємо, що таке розподіл для реальних даних про життя, тому яка мета нам зосередитись виключно на різних сімействах розповсюдження

Звідси інтерес до непараметричної статистики. Але в той же час непараметричні без припущень занадто вільні. Щоб відповісти на ваше запитання, спеціалізовані сім’ї можна розглядати як відповіді на прості питання, які ви можете, можливо, натрапите. Наприклад, я вважаю Гаусса як "гладку" бальну оцінку. Пуассон відповідає на ще одне просте запитання. Коли люди будують математичні моделі, ці спеціальні можуть бути корисними опорними пунктами. (Але вчені часто переживають пошуки майстерного розподілу неправильно.)

ОП: Сподіваюся, вам було цікаво з докторським дослідженням!

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.