Дослідження низької ваги при народженні
Це один із наборів даних у підручнику Хосмера та Лемешоу з прикладної логістичної регресії (2000, Wiley, 2-е видання). Метою цього перспективного дослідження було визначити фактори ризику, пов’язані з народженням дитини з низькою вагою при народженні (вагою менше 2500 грам). Дані були зібрані про 189 жінок, 59 з яких мали немовляти з низькою вагою, а 130 з них мали нормальну вагу при народженні. Чотири змінні, які вважалися важливими, - це вік, вага суб'єкта в останній менструальний період, раса та кількість відвідувань лікаря протягом першого триместру вагітності.
Він доступний в R як data(birthwt, package="MASS")
або в Stata з webuse lbw
. Тут з’являється текстова версія: lowbwt.dat ( опис ). Зауважимо, існує декілька версій цього набору даних, оскільки він поширювався на дослідження контрольного випадку (1-1 або 1-3, відповідно до віку), як проілюстровано Хосмером та Lemeshow у розділі 7 ALR.
Я викладав вступні курси на основі цього набору даних з наступних причин:
- Це цікаво з історичної та епідеміологічної точки зору (дані були зібрані у 1986 р.); для розуміння основних ідей та питань, які можна задати в цьому дослідженні, не потрібно попереднього досвіду медицини чи статистики.
- χ2
- Це дозволяє обговорювати різні перспективи моделювання (пояснювальні чи прогнозні підходи), а також вплив схеми вибірки при розробці моделей (стратифікація / відповідні випадки).
Інші моменти, на які можна наголосити, залежно від аудиторії та рівня знань із статистичним програмним забезпеченням чи статистикою загалом.
Що стосується набору даних, доступних у R, категоричні предиктори зараховуються як цілі числа (наприклад, для етнічної приналежності матері у нас є "1" = білий, "2" = чорний, "3" = інше), незважаючи на те, що природне впорядкування для деяких предикторів (наприклад, кількість попередніх передчасних робіт або кількість відвідувань лікаря) або використання явних міток (для двійкових змінних завжди корисно використовувати "так" / "ні" замість 1/0, навіть якщо це не відповідає " t змінити що-небудь в матриці дизайну!) просто відсутні. Таким чином, легко обговорити, які питання можуть бути порушені, ігноруючи рівні або одиниці вимірювання в аналізі даних.
Змінні типів змішаних типів цікаві, коли потрібно зробити якийсь дослідний аналіз та обговорити, який тип графічних дисплеїв підходить для узагальнення однофазних, двоваріантних або триваріантних зв’язків. Аналогічно, створення приємних підсумкових таблиць і, загалом, звітування, є ще одним цікавим аспектом цього набору даних (але Hmisc::summary.formula
команда робить це так просто під R).
Хосмер та Lemeshow повідомили, що фактичні дані були змінені для захисту конфіденційності предмета (стор. 25). Можливо, буде цікаво обговорити питання конфіденційності даних, як це було зроблено в одному з наших попередніх журналів , але подивіться його стенограму . (Я мушу визнати, що ніколи з цим не розбираюся в деталях.)
Неважко ввести деякі пропущені значення або помилкові значення (які є поширеними проблемами в реальному житті статистики), що призводить до обговорення (а) їх виявлення за допомогою кодової книги ( Hmisc::describe
або статистики codebook
) або дослідницької графіки (завжди спочатку будуйте свої дані!) , і (b) можливі виправлення (внесення даних, видалення за списком або попарна міра асоціації тощо).