Приклади дорогих наслідків від неправильного використання статистичних інструментів


12

Я підозрюю, що більшість користувачів статистичних інструментів є допоміжними користувачами (люди, які майже не мали офіційного навчання статистиці). Для дослідників та інших фахівців дуже спокусливо застосовувати статистичні методи до своїх даних просто тому, що вони бачили це "зроблено раніше" у рецензованих роботах, сірій літературі, в Інтернеті або на конференції. Однак, без чіткого розуміння необхідних припущень та обмежень статистичного інструменту може призвести до помилкових результатів - помилки часто не визнаються!

Я вважаю, що студенти магістрантів (особливо з соціальних та природничих наук) або не знають про статистичні підводні камені, або вважають ці підводні камені несуттєвими (останній найчастіше трапляється). Хоча приклади неналежного використання статистичних інструментів можна знайти у багатьох вступних текстових книгах, Інтернеті чи StackExchange, мені важко знайти приклади реального світу, які мали б згубні результати (наприклад, вартість у доларах США, постраждала життя та втрачена кар'єра) . З цією метою я шукаю приклади реального світу, які висвітлюють неправильне використання статистичних методів, для яких:

  1. Застосовувані статистичні методи, як правило, висвітлюються у вступних курсах статистики (тобто інфекційна статистика, регресія тощо).
  2. кінцевий результат мав дорогі наслідки (втрачені долари, загроза життю, зрушення кар'єри тощо)
  3. ці дані легко доступні для використання в якості робочих прикладів в курсі (мета полягає в тому, щоб студенти працюють через реальні приклади , які мали реальні наслідки світу.)

Один нестатистичний приклад, який я люблю наводити студентам, обговорюючи важливість правильного визначення одиниць у дослідницькому проекті, - це «метрична невідповідність», яка призвела до втрати супутника в 125 мільйонів доларів! Зазвичай це викликає: - фактор від студентів і, здається, справляє стійке враження (принаймні протягом їхнього короткого академічного життя).


2
Ще один нестатистичний приклад Едварда Туфте, Powerpoint робить Rocket Science . Хоча це дещо тісніше пов'язане з логічним прогресуванням статистичного мислення в цілому, ніж метрична невідповідність, яку ви згадуєте. Ви також знайомі з цією книгою «Культ статистичної значущості» ?
Andy W

@AndyW, я не знайомий з "культом статистичної значущості". Чи знаєте ви, чи елементи 2 / та 3 / у моєму питанні розглядаються в цій книзі?
MannyG

Я не знаю про 3, але якщо ви прочитаєте рецензію на книгу, яку я пов’язав із нею, відповів би на ваше запитання 2 (або прочитали решту заголовків книги!) Дійсно, вся книга повинна відповідати на ваше запитання №2 у посиланні до інтерпретації тестів на значимість.
Енді Ш

@AndyW - це та сама книга, яку я збирався згадати.
Пітер Флом - Відновити Моніку

@AndyW, хоча огляд, на який ви посилаєтесь, посилається на один із реальних прикладів неналежного використання статистичних даних книги, мені незрозуміло, чи слід враховувати наслідкові витрати. Якщо в книзі розглядаються наслідкові витрати, вони базуються на незалежному аналізі чи субективній думці авторів?
MannyG

Відповіді:


8

Я не впевнений у наявності даних, але чудовим (якщо це правильне слово) прикладом поганої статистики є дослідження Гарвардських медсестер щодо ефективності гормонозамісної терапії (ЗГТ) у жінок в менопаузі.

Яка загальна ідея? Дослідження медсестер свідчать про те, що ЗГТ корисний для жінок у постменопаузі. Виявляється, цей результат виник через те, що контрольна група сильно відрізнялася від групи лікування, і ці відмінності не враховувалися в аналізі. У наступних рандомізованих дослідженнях ЗГТ пов'язували з раком, інфарктом, інсультом і тромбами. За допомогою відповідних виправлень дослідження медсестер виявляють і ці закономірності.

Я не можу знайти оцінок смертності США, пов’язаних із ЗГТ, але їх величина становила десятки тисяч. Одна стаття пов'язує ЗГТ з 1000 загиблих у Великобританії.

Ця стаття New York Times Magazine забезпечує гарне статистичне підґрунтя проблем, що викликають збентеження, присутніх у дослідженні.

У цьому номері американського журналу епідеміології є академічна дискусія . У статтях порівнюються результати дослідження спостережних медсестер з результатами Ініціативи жіночого здоров’я на основі рандомізованих випробувань.

Існує також дискусія (багатьма одними і тими ж особами) у випуску Біометрики. Див. Коментар Фрідмана та Петтіті, зокрема [ препубр. Версія ].


1
Я б фактично заперечував проти використання цього прикладу. З 2005 року було проведено більше роботи, особливо Мігель Ернан, див. Спостережні дослідження, проаналізовані як рандомізовані експерименти: застосування до постменопаузальної гормональної терапії та ішемічної хвороби серця , епідеміологія (2008). Висновок: "Підводячи підсумок, наші висновки дозволяють припустити, що розбіжності між оцінками ІТТ WHI та NHS можна значною мірою пояснити різницею в розподілі часу після менопаузи та тривалості подальшого спостереження. NHS, схоже, відіграє незначну роль ".
Фоміт

Незалежно від того, як ви ставитеся до згаданих досліджень, відмінності між ними складніші та складніші, ніж те, що, мабуть, корисне в запропонованій ОП програмі.
Фоміт

@EpiGrad, Це, звичайно, не моє поле, і я впевнений, що ви знаєте більше про цей конкретний приклад, ніж я. Але я думаю, що цитований вами документ вказує на те, що це роблять інші документи. У статті OSALRE вони викидають жінок із дослідження NHS, які не відповідають критеріям дослідження WHI. Частка викинутих жінок повинна змінюватись у різних групах лікування та контролю за медичними групами (інакше результати не змінюватимуться). Таким чином, вони скасовують проблему вибору, виявлену в дослідженні NHS. [[Продовження]]
Чарлі

1
Документ, який мені сподобався, принаймні для мене підказує щось більше за принципом "Переконайтеся, що ви задаєте те саме питання", а не проблему відвертого збентеження. Не зрозумійте мене неправильно, питання NHS / WHI є надзвичайно цікавим як питання статистики та практики охорони здоров'я. Це просто складніше, ніж здається, початкова незгода, і я вважаю, що це дещо недоцільно для пункту 1 запиту ОП. Пункт 3 також не вийшов.
Фоміт

2
@EpiGrad, досить справедливо. Але я серйозно сумніваюся, що ви знайдете дослідження, яке має очевидну статистичну помилку, яка не потребує копання, щоб зрозуміти, що мало широкі, істотні наслідки. Можливо, інші респонденти вб'ють мій оптимізм у дослідників, хоча (хе).
Чарлі

8

Чудовий історичний приклад наводить публікація в 1933 р. «Триумфу посередництва в бізнесі Горація Секрета» . У той час Секріст був відомим статистиком, автором підручника (приблизно 1919 р., Я пам’ятаю), добре пов’язаного з Американською статистичною асоціацією та керівником групи статистичних досліджень Північно-Західного університету. Він та його співробітники провели попереднє десятиліття, складаючи часові ряди ділових даних, які відтворені та ретельно проаналізовані у книзі. Це повинно було бути шеф-кухарем амбітного статистичного діяча.

Рецензія на книгу Гарольда Готеллінга, яка з’явилася в JASA пізніше того ж року, вказувала, що Сестріст просто задокументував сотні прикладів регресу до середнього рівня (основна тема в будь-якому сьогодні вступному курсі статистики, пункт №1 питання). Сестрист заперечив у опублікованій відповіді. Відповідь Хотелінга на це класична:

"Довести" такий математичний результат дорогим і тривалим числовим дослідженням ... аналогічно доказуванню таблиці множення, розташовуючи слони в рядках і стовпцях, а потім робити те ж саме для численних інших видів тварин. Виступ, хоч, можливо, розважальний і має певну педагогічну цінність, не є важливим внеском ні в зоологію, ні в математику.

[JASA v. 29 № 186, червень 1934, с. 199.]

Схоже, Серіст швидко згас зі статистичної сцени незабаром після цього ("кар'єра зруйнувалася", пункт №2 у питанні). Його книга все ще доступна. (Кілька років тому я отримав гарну чисту копію, очевидно, мало прочитану, через Міжбібліотечний кредит.) З неї ви можете отримати будь-яку кількість наборів прикладів даних (пункт №3 питання).

Стівен Стіглер переказує цю історію в книзі та статті "Історія статистики 1933 року" .


4

Мені здається, що сприйняття Wired щодо краху на фондовому ринку 2008 року може бути інформативним прикладом. Не можу прокоментувати це висновки правильно чи ні, але ідея використання кореляції над даними , які не є репрезентативною вибіркою схожа на те , що може бути підходять до умов , які ви пропонуєте. Це також актуально, і тому може зацікавити їх.


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.