Які хороші набори даних для ілюстрації окремих аспектів статистичного аналізу?


16

Я усвідомлюю, що це суб'єктивно, але я думав, що було б непогано поговорити про наші улюблені набори даних та те, що, на нашу думку, робить їх цікавими. Існує велика кількість даних, і що з усіма API (наприклад, Datamob ) поряд з класичними наборами даних (наприклад, R дані ), я думаю, що це може мати дуже цікаві відповіді.

Наприклад, мені завжди подобалися набори даних, такі як набір даних "Бостонське житло" (незважаючи на сумнівні наслідки) та "mtcars" за їх універсальність. З педагогічної точки зору можна показати достоїнства найрізноманітніших статистичних прийомів, використовуючи їх; і набір даних про райдужку Андерсона / Фішера завжди знайде місце в моєму серці.

Думки?


2
Той, що використовується для моєї дисертації, тому що він
отримає

3
Ласкаво просимо до Cross Valified! Це розроблено як веб-сайт із питань відповідей на запитання з реальними відповідями, а не на дискусійний форум. Як такий, я не вірю, що це тип запитань, який ми хочемо на цьому веб-сайті. Будь ласка, дивіться FAQ .
Майкл МакГоуан

4
Я знаю, що він розроблений як питання та відповіді, але з такими питаннями, як "Ваш улюблений статистичний мультфільм?" коли я голосував високо, я вважав, що це не буде страшно недоречно. Особливо з педагогічної точки зору, якщо хтось намагається дізнатись про аналіз даних та методи дослідження, може бути корисним отримати зворотній зв'язок щодо публічних наборів даних, які пропонують багату структуру та мають за собою велику кількість історії та досліджень.
DA

4
Я схильний дозволити громаді вирішувати, чи потрібно це закривати (як не конструктивне) чи ні, хоча я додам, що ґрунтовні та аргументовані відповіді можуть служити підтримкою для майбутніх питань щодо окремих аспектів аналізу даних. Я тим часом перетворюю це на CW, оскільки, очевидно, немає єдиної найкращої відповіді.
chl

2
Це питання та їх відповіді мені дуже корисні. Будь ласка, не видаляйте.
dsign

Відповіді:


12

Дослідження низької ваги при народженні

Це один із наборів даних у підручнику Хосмера та Лемешоу з прикладної логістичної регресії (2000, Wiley, 2-е видання). Метою цього перспективного дослідження було визначити фактори ризику, пов’язані з народженням дитини з низькою вагою при народженні (вагою менше 2500 грам). Дані були зібрані про 189 жінок, 59 з яких мали немовляти з низькою вагою, а 130 з них мали нормальну вагу при народженні. Чотири змінні, які вважалися важливими, - це вік, вага суб'єкта в останній менструальний період, раса та кількість відвідувань лікаря протягом першого триместру вагітності.

Він доступний в R як data(birthwt, package="MASS")або в Stata з webuse lbw. Тут з’являється текстова версія: lowbwt.dat ( опис ). Зауважимо, існує декілька версій цього набору даних, оскільки він поширювався на дослідження контрольного випадку (1-1 або 1-3, відповідно до віку), як проілюстровано Хосмером та Lemeshow у розділі 7 ALR.

Я викладав вступні курси на основі цього набору даних з наступних причин:

  • Це цікаво з історичної та епідеміологічної точки зору (дані були зібрані у 1986 р.); для розуміння основних ідей та питань, які можна задати в цьому дослідженні, не потрібно попереднього досвіду медицини чи статистики.
  • χ2
  • Це дозволяє обговорювати різні перспективи моделювання (пояснювальні чи прогнозні підходи), а також вплив схеми вибірки при розробці моделей (стратифікація / відповідні випадки).

Інші моменти, на які можна наголосити, залежно від аудиторії та рівня знань із статистичним програмним забезпеченням чи статистикою загалом.

  1. Що стосується набору даних, доступних у R, категоричні предиктори зараховуються як цілі числа (наприклад, для етнічної приналежності матері у нас є "1" = білий, "2" = чорний, "3" = інше), незважаючи на те, що природне впорядкування для деяких предикторів (наприклад, кількість попередніх передчасних робіт або кількість відвідувань лікаря) або використання явних міток (для двійкових змінних завжди корисно використовувати "так" / "ні" замість 1/0, навіть якщо це не відповідає " t змінити що-небудь в матриці дизайну!) просто відсутні. Таким чином, легко обговорити, які питання можуть бути порушені, ігноруючи рівні або одиниці вимірювання в аналізі даних.

  2. Змінні типів змішаних типів цікаві, коли потрібно зробити якийсь дослідний аналіз та обговорити, який тип графічних дисплеїв підходить для узагальнення однофазних, двоваріантних або триваріантних зв’язків. Аналогічно, створення приємних підсумкових таблиць і, загалом, звітування, є ще одним цікавим аспектом цього набору даних (але Hmisc::summary.formulaкоманда робить це так просто під R).

  3. Хосмер та Lemeshow повідомили, що фактичні дані були змінені для захисту конфіденційності предмета (стор. 25). Можливо, буде цікаво обговорити питання конфіденційності даних, як це було зроблено в одному з наших попередніх журналів , але подивіться його стенограму . (Я мушу визнати, що ніколи з цим не розбираюся в деталях.)

  4. Неважко ввести деякі пропущені значення або помилкові значення (які є поширеними проблемами в реальному житті статистики), що призводить до обговорення (а) їх виявлення за допомогою кодової книги ( Hmisc::describeабо статистики codebook) або дослідницької графіки (завжди спочатку будуйте свої дані!) , і (b) можливі виправлення (внесення даних, видалення за списком або попарна міра асоціації тощо).


+1 Дякую за надання зразкової відповіді, яка показує, що ця тема може бути корисною та надає стандарт викладу, до якого можуть (і повинні) спрямовані інші відповіді.
whuber

Це фантастично і саме те, що я шукав, задаючи питання. Дякую за те, що ви цінували прозріння.
DA

5

Звичайно, набори даних Anscombe 4 дуже хороші для викладання - вони виглядають дуже різними, але мають однакові прості статистичні властивості.

Я також пропоную набори даних кубків KDD http://www.kdd.org/kddcup/, оскільки вони були добре вивчені і існує багато рішень, тому студенти можуть порівняти результати та побачити, як вони рейтингуються.

У своєму курсі з вивчення даних я запропонував змагання з набором даних Microarray, яке можуть використовувати професори http://www.kdnuggets.com/data_mining_course/


Для інших наборів даних, розроблених для педагогічних цілей аналогічно квартету Anscombe, дивіться це запитання .
Срібна рибка

3

Багато моїх курсів статистичного аналізу в Cal Poly використовували набір даних "Iris", який вже є в Р. Він має категоричні змінні та сильно корельовані змінні.


Ви б заперечили розширити свої останні моменти: Як цей набір даних допомагає викладати статистику? (AFAICT, набір даних райдужної оболонки має лише одну категоричну змінну, а саме клас iris.)
chl

Ось нитка, яка повністю стосується використання набору даних Iris у навчанні .
Срібна рибка

3

Набір даних "Титанік", використаний Гарреллом у "Стратегії моделювання регресії". Я використовую спрощену версію його аналізу, коли пояснюю логістичну регресію, пояснюючи виживання за допомогою статі, класу та віку.

Loyn набір даних обговорюється в розділі «експериментального проектування та аналізу даних для біологів» Джеррі Куїнн і Мік Keough містить цікаві завдання , що вимагають перетворення для множинної лінійної регресії.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.