Статистична інтуїція / сенс даних


20

Я студентка другого курсу, вивчаю математику, і я говорив з одним із своїх професорів хорошу суму про різницю між математичними здібностями та статистичними здібностями. Однією з ключових відмінностей, яку він висунув, було "сенс даних", який він пояснив як поєднання технічних можливостей під час роботи в рамках того, що я неофіційно називаю "обмеженням здорового глузду", тобто не втрачаючи з уваги реальність проблеми серед багато теорії. Це приклад того, про що я говорив, що з’явилося в блозі Гоуерса:

У кількох частинах Великої Британії поліція зібрала статистику щодо місця дорожньо-транспортних пригод, визначила чорні точки аварій, поставила там камери швидкості та зібрала більше статистики. Існувала певна тенденція зменшення кількості аварій у цих чорних точках після встановлення камер швидкості. Це наочно показує, що камери швидкості покращують безпеку дорожнього руху?

Той самий, хто сперечався за рандомізовану стратегію в переговорній грі, в основному знав відповідь на це питання вже. Він сказав "ні", оскільки якщо ви виберете крайні випадки, тоді ви очікуєте, що вони будуть менш крайніми, якщо ви повторите експеримент ще раз. Я вирішив швидко перейти до цього питання, оскільки не було багато чого сказати. Але я розповів людям про план, який у мене був, а саме: зробити хибний експеримент з телепатією. Я б змусив їх відгадати результати 20 кидків монет, які я б спробував передати їм телепатично. Тоді я б вибрав трьох найкращих виконавців і трьох гірших, і кинув монети знову, на цей раз попросивши найкращих допомогти мені знайти відповіді на найгірші. Люди могли легко бачити, що очікується, що виступи покращаться і що це не матиме нічого спільного з телепатією.

Я запитую, як дізнатися більше про цей «сенс даних» , через будь-які публікації з цього питання, якщо вони існують, або через те, що інші користувачі виявили корисними у розвитку цієї навички. Вибачте, якщо це питання потребує уточнення; якщо так, будь ласка, опублікуйте свої запитання! Спасибі.


Як лежати зі статистикою - це чудове місце для початку.
MånsT

Прогулянка "П'яниця" також розміщує статистику в доступній, здоровій формі.
Маркус Моррісей

Відповіді:


10

Я спершу сказав, що ми не повинні мати незначну математику. Це важливий інструмент розвитку статистичної теорії, і статистичні методи обґрунтовуються теорією. Теорія також розповідає, що не так і які методи можуть бути кращими (наприклад, більш ефективними). Тому я думаю, що математичні знання та мислення важливі (майже необхідні), щоб бути хорошим статистиком. Але це однозначно недостатньо. Я думаю, що книги, на які посилається в коментарях, хороші. Дозвольте дати деякі інші.

Ознайомлення з даними: практичний посібник з дослідницького аналізу даних та обміну даними

Ознайомлення з даними II: практичний посібник із візуалізації даних, вдосконалені методи обміну даними та додатки

Статистичне мислення: підвищення ефективності бізнесу

Роль статистики в бізнесі та промисловості

Кар'єра в статистиці: поза числами

Книги Гана і Сні є особливо цінними та цікавими, оскільки це відомі промислові статистики з математичними навичками та практичним досвідом.


7
Дякуємо за посилання та коментар. Я думаю, що загалом відповіді можна покращити, використовуючи [manuscript title](uri) розмітку посилань . Після довгого дня я знаходжу відповіді з довгими гіперпосиланнями, що можуть підсвідомо дзижчати, і, на жаль, може заперечити читача проти інакше доброї відповіді.
jthetzel

@jthetzel Я можу зрозуміти, чому краще мати ім’я, яке замінює URL-адресу у посиланні. Коли я встигну, я навчусь це робити. Я знаю, що це легко. Але я дав три-чотири посилання. майже не потрібно часу, щоб натиснути на посилання і подивитися, що це таке. тож я не дуже розумію, чому так багато членів громади роблять велику справу над цим.
Майкл Р. Черник

6

У прикладі, який ви згадуєте, основна проблема - це причинний висновок. Гарне місце для початку причинного висновку - це потрійний огляд Ендрю Гелмана та книги, що переглядаються в ньому. Окрім того, щоб дізнатися про причинно-наслідкові умовиводи, слід дізнатися про значення аналізу, опису та прогнозування даних.

Я навчився неймовірної кількості, чуючи, як суспільствознавці критикують дослідження один одного в опублікованих роботах, блогах , семінарах та в особистих розмовах - існує багато способів навчитися. Слідкуйте за цим сайтом та блогом Ендрю Гельмана.

Звичайно, якщо ви хочете зрозуміти дані, вам потрібна практика роботи з реальними даними. Існують загальні навички збору даних, але є також сенс передачі даних, який є специфічним для проблемної області, або, навіть конкретніше, специфічним для конкретного набору даних.


5

Приємним, безкоштовним ресурсом є шанс News Wiki . У ньому є багато прикладів, витягнутих із реальних прикладів, а також обговорення хороших та поганих моментів у тому, як люди інтерпретують дані та статистику. Часто виникають і дискусійні питання (частина мотивації зору полягає в тому, щоб надати вчителям статистики приклади реального світу для обговорення зі студентами).


5

+1 за чудове запитання! (І ще +1 всім відповідачам.)

Я думаю, що існує дуже багато такого поняття, як сенс даних, але я не думаю, що в цьому є щось містичне. Я б застосував аналогію до водіння. Коли ви їдете по дорозі, ви просто знаєте, що відбувається з іншими автомобілями. Наприклад, ви знаєте, що хлопець перед вами збоку шукає дорожній знак, куди він повинен повернути, хоча він не використовує свій поворотник. Ви автоматично ідентифікуєте повільного, надто обережного водія та передбачаєте, як вони реагуватимуть у різних ситуаціях. Ви можете помітити підлітка, який просто хоче гонки так швидко, як він може піти. У вас є визнання на основі почуття того , що всі машини роблять. Це точно так само, як і сенс даних. Це випливає з досвіду, багатодосвіду. Якщо ви досить добре знаєте теорію, потрібно просто почати грати з реальними наборами даних. Можливо, вам буде цікаво вивчити такий сайт, як DASL . Одна з умов полягає в тому, що ви не повинні просто отримати досвід завантаження набору даних, проведення тесту та отримання p-значення. Вам потрібно буде вивчити дані, ймовірно, побудувати їх різними способами, підходити до деяких моделей і думати, що відбувається. (Зверніть увагу, що EDA тут є загальною темою.)

Один, можливо, не очевидний факт цього процесу полягає в тому, що сенс даних може бути локалізований у заданій тематичній області. Наприклад, ви можете отримати багато досвіду роботи з експериментальними даними та ANOVA, але не обов'язково мати гарне відчуття того, що відбувається під час перегляду даних часових рядів або даних виживання.

Дозвольте додати ще одну стратегію, яка мені виявилася надзвичайно корисною: я вважаю, що варто свого часу вивчити трохи (статистичне) програмування. Не потрібно бути в цьому страшенно гарним (я відомий тим, що писав "неефективно" код). Однак, як тільки ви зможете написати якийсь основний процесуальний код (скажімо в R), ви зможете імітувати . Мені було б важко переосмислити, наскільки здатність провести навіть дуже прості симуляції може допомогти. Одне, для чого ви можете скористатися цим, це коли ви під час навчання читаєте про якусь властивість, яку можете вивчити. Наприклад, якщо ви знаєте (абстрактно), що важко емпірично визначити, чи зручна модель logit чи probit для набору даних, ви можете кодувати прості симуляції цьогоі пограйте з ними, щоб зрозуміти ідею більш повно. Це також забезпечить вам досвід, але дещо іншого типу, а також допоможе вам розвинути свій сенс даних.


+1 Для підкреслення цінності навчання за допомогою симуляцій.
whuber
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.