Які теорії повинен знати кожен статистик?


30

Я думаю про це з точки зору дуже основних, мінімальних вимог. Які основні теорії, які галузевий (а не академічний) статистик повинен знати, розуміти та використовувати на регулярній основі?

Великий, який спадає на думку, - Закон великої кількості . Які найбільш важливі для застосування статистичної теорії до аналізу даних?

Відповіді:


41

Чесно кажучи, я не думаю, що закон великої кількості має величезну роль у промисловості. Корисно зрозуміти асимптотичні обгрунтування загальних процедур, такі як максимальна оцінка ймовірності та тести (включаючи, втім, всебічні ГЛМ та логістичну регресію), завантажувальний інструмент, але це питання дистрибуції, а не ймовірність потрапляння поганих проблем вибірки. .

Поза межами вже згаданих тем (GLM, умовивод, завантажувальна програма) найпоширенішою статистичною моделлю є лінійна регресія, тому ґрунтовне розуміння лінійної моделі є обов'язковим. Ви ніколи не можете керувати ANOVA у своєму індустріальному житті, але якщо ви цього не розумієте, вас не називають статистиком.

Існують різні види галузей. У фармаці не можна заробляти на життя без рандомізованих випробувань та логістичної регресії. У статистиці опитування ви не можете заробляти на життя без оцінки Horvitz-Thompson і невідрегульованих заходів. У статистиці, пов'язаній з інформатикою, ви не можете заробляти на життя без статистичного навчання та обміну даними. У аналітичних центрах публічної політики (і, все частіше, в статистиці освіти) не можна заробляти на життя без оцінювальних причин і ефектів лікування (які все частіше включають випадкові випробування). У маркетингових дослідженнях вам потрібно поєднати передумови економіки з теорією психометричного вимірювання (і ви не можете дізнатися жодне з них у типових пропозиціях відділу статистики). Промислова статистика функціонує зі своїми властивими шести сигма-парадигмами, які віддалено пов'язані з основною статистикою; міцніший зв’язок можна знайти в дизайні матеріалу експериментів. Матеріал з Уолл-стріт був би фінансовою економетрією, аж до стохастичного обчислення. Це ДУЖЕ розрізнені навички, а термін "галузь" ще більш погано визначений, ніж "академічні". Я не думаю, що ніхто може стверджувати, що знає більше двох-трьох вищезазначених одночасно.

Найвищими навичками, які були б загально необхідні у "промисловості" (що б це не означало для вас), було б управління часом, управління проектами та спілкування з менш статистично сприятливими клієнтами. Тож якщо ви хочете підготуватися до розміщення в галузі, пройдіть заняття в бізнес-школі з цих тем.

ОНОВЛЕННЯ: Оригінальний пост був написаний у лютому 2012 року; У ці дні (березень 2014 р.) ви, мабуть, повинні називати себе "науковцем даних", а не "статистиком", щоб знайти гарячу роботу в галузі ... і краще навчитися деякого Hadoop слідувати цьому самовиголошенню.


1
Чудова відповідь. Дякуємо, що виділили деякі великі відмінності між статистиками в галузі. Це допомагає мотивувати моє запитання, оскільки я вважаю, що багато людей мають інше уявлення про те, що таке статистичний статистик. Напевно, я намагався з'ясувати, де це все перетинається з основним розумінням. Також я дуже вдячний вашому останньому абзацу про бізнес-теми та про те, наскільки вони важливі. Чудові моменти, але я все ж хотів би побачити, чи хтось може додати до розмови, перш ніж приймати.
bnjmn

Мене спантеличать ці "своєрідні парадигми" Шість сигналів "," віддалено пов'язані з основною статистикою ", з якими, на вашу думку, працює промислова статистика. Мені це здається цілком ортодоксальним, відкладаючи відмінності в термінології, виявлені між усіма цими підполями.
Scortchi

4
10-9

Досить справедливо: я б сказав, що аналіз систем вимірювань (міжрейтингова угода, вимірювання відтворюваності та дослідження повторюваності), статистичний контроль процесів, аналіз надійності (він же аналіз виживання) та експериментальний дизайн ((дробові) факторні розробки, методологія поверхні відповіді ) були характерними для промислової статистики.
Scortchi

12

Я думаю, що добре розумію питання, пов'язані з компромісними змінами . Більшість статистиків в якийсь момент в кінцевому підсумку проаналізують набір даних, який є достатньо малим, щоб дисперсія оцінювача або параметри моделі була достатньо високою, щоб ухил був вторинним.


11

Щоб вказати на супер очевидне:

Теорема центрального ліміту

оскільки це дозволяє практикуючим наближатись pp

Запуск завантаження


8

Я б не сказав, що це дуже схоже на щось на кшталт закону великих чисел та теореми про центральну межу, але оскільки робити висновки про причинність часто є центральним, розуміння роботи Джудії Перл над використанням структурованих графіків для моделювання причинності - це те, що люди повинні бути знайомі з. Він пропонує спосіб зрозуміти, чому експериментальні та спостережливі дослідження відрізняються залежно від причинних висновків, які вони дозволяють, і пропонує способи поводження з даними спостережень. Для гарного огляду тут знаходиться його книга .


2
Також є рамки контрафакту Рубіна; Існують також моделювання структурних рівнянь та методи економетричної інструментальної змінної ... деякі з них описані в « Більш нешкідливій економетриці», який із кращих статистичних книг, написаних нестатистами.
Стаск

7

Добре розуміння суттєвої проблеми, яку слід вирішити, так само важливо, як і будь-який конкретний статистичний підхід. Хороший учений у цій галузі швидше, ніж статистик без таких знань, прийде до розумного вирішення своєї проблеми. Статистик з предметними знаннями може допомогти.


6

Дельта-метод, як обчислити дисперсію химерних статистичних даних і знайти їх асимптотичну відносну ефективність, рекомендувати зміни змінної та пояснювати підвищення ефективності шляхом "оцінки правильної речі". У поєднанні з цим, нерівність Дженсена для розуміння ГЛМ та дивних видів упереджень, які виникають при перетвореннях, як вище. І тепер, коли згадуються упередження та дисперсія, концепція компромісії зміщення зміщення та MSE як об'єктивна міра точності прогнозування.


6

На мою думку, статистичний висновок є найважливішим для практикуючого лікаря. Висновок складається з двох частин: 1) Оцінка та 2) Тестування гіпотези. Тестування гіпотези є важливим. Оскільки в оцінці здебільшого є унікальна процедура, максимальна оцінка ймовірності, дотримується, і вона доступна для більшості статистичних пакетів (так що немає плутанини).

Питання практичних практиків стосуються значного тестування різниці або аналізу причинності. Важливі тести гіпотез можна знайти за цим посиланням .

Знання про лінійні моделі, GLM або загальне статистичне моделювання потрібно для інтерпретації причинно-наслідкових зв’язків. Я припускаю, що майбутнє аналізу даних включає байєсівські умовиводи.


0

Випадкові умовиводи повинні бути. І як вирішити основну проблему, ви не можете повернутись у часі і не дати комусь лікувати. Читайте статті про рубіна, рибалки, засновника сучасного студента статистики.) .... Що навчитися вирішувати цю проблему, правильну рандомізацію та як Закон великої кількості говорить про те, що все правильно рандомізоване, тестування гіпотез, потенційні результати (справедливо проти припущення гетроскастісти) і це чудово з відсутністю), збіг (чудово для відсутності, але потенційні результати краще, тому що це більш узагальнено, я маю на увазі, чому навчитися тоні складних речей, коли можна навчитися лише одній складній справі), Bootstrap, байесівська статистика звичайно (байесівська регресія , наївна байєсська регресія, байесівські фактори) та альтернативні варіанти.

Зазвичай на практиці просто дотримуйтесь цих загальних кроків,

Що стосується попереднього коментаря, вам слід спершу почати з ANOVA (випадкові ефекти або фіксовані ефекти та перетворити безперервні типи у бункери), а потім скористатись регресією (яка, якщо ви перетворюєте та змінюєте, іноді може бути такою ж доброю, як ANOVA, але ніколи її не бити) щоб побачити, які конкретні методи лікування є значущими, (призначені робити багаторазовий тест і використовувати певну корекцію, наприклад, метід Холма), використовуйте регресію.

У випадках, коли вам доведеться передбачити речі, використовуйте баязіанську регресію.

Відсутність більше 5% використовує потенційні результати

Ще одна галузь аналітики даних - це контрольоване машинне навчання, яке необхідно згадати

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.