Статистика, опублікована в наукових працях


44

Я читав багато еволюційних / екологічних наукових праць, іноді з конкретною метою бачити, як статистика використовується "в реальному світі" поза підручником. Я зазвичай сприймаю статистику в документах як євангелію і використовую ці документи, щоб допомогти в моєму статистичному навчанні. Зрештою, якщо документ писав багато років і пройшов суворий експертний огляд, то, напевно, статистика буде непомічною? Але в останні кілька днів я ставив під сумнів своє припущення і цікавився, як часто підозрюється статистичний аналіз, опублікований в наукових працях? Зокрема, можна очікувати, що ті, хто в таких сферах, як екологія та еволюція, витратили менше часу на вивчення статистики та більше часу на вивчення своїх сфер.

Як часто люди знаходять підозрюваних статистику в наукових роботах?



18
Рецензенти часто є людьми, які не знають набагато більше про статистику, ніж ті, хто пише статтю, тому часто публікувати погану статистику може бути просто.
Бехакад

9
Опублікування доповіді - це перший крок до її прийняття науковою спільнотою, а не останній. Більшість опублікованих праць матимуть суттєві недоліки в якійсь галузі, використання статистики не є винятком.
Дікран Марсупіал

3
Ваше припущення, що паперам "потрібні роки, щоб писати", це далеко від позначки. Збір даних може зайняти багато часу, але аналіз даних та їх написання - це тижні, а не роки.
Девід Річербі

2
В даний час добре відомо, що статистика в багатьох психологічних та медичних роботах є принаймні сумнівною, очевидно неправильною чи навіть не дуже частою. Використання p-значень і NHST є важливим прикладом проблем, див. Цю примітку .
Кварц

Відповіді:


38

Зрештою, якщо документ писав багато років і пройшов суворий експертний огляд, то, напевно, статистика буде непомічною?

Мій досвід читання праць, які намагаються застосувати статистику в найрізноманітніших сферах (політологія, економіка, психологія, медицина, біологія, фінанси, актуарна наука, бухгалтерський облік, оптика, астрономія та багато-багато інших) - це те, що якість статистичний аналіз може бути в будь-якому місці спектра - від чудового і добре зробленого до жахливих дурниць. Я бачив хороший аналіз у кожній із згаданих нами областей, і майже погано зроблений аналіз майже у всіх.

Деякі журнали, як правило, досить непогані, а деякі можуть бути більше схожі на гру в дартс із зав'язаними очима - ви можете отримати більшість із них не надто страшно далеко від мети, але їх буде кілька в стіні, підлозі та стелі. А може, кіт.

Я не планую називати жодних винуватців, але скажу, що я бачив академічну кар’єру, побудовану на неправомірному використанні статистики (тобто там, де ті самі помилки та непорозуміння повторювалися в папері після паперу, протягом більше десяти років).

Тому моя порада нехай читач остерігається ; не довіряйте, що редактори та рецензенти знають, що вони роблять. З часом ви можете зрозуміти, на яких авторів взагалі можна покластися, щоб вони не робили занадто шокуючого, а до яких слід ставитися особливо обережно. Ви можете зрозуміти, що деякі журнали зазвичай мають дуже високий рівень своєї статистики.

Але навіть типово хороший автор може помилитися, або арбітри та редактори не можуть зібрати помилки, які вони зазвичай можуть знайти; типово хороший журнал може публікувати виття.

[Іноді ви навіть побачите, як справді погані папери виграють призи чи нагороди ... що також не дуже говорить про якість людей, які судять про приз.]

Я не хотів би здогадуватися, яку частину "поганих" статистичних даних я міг бачити (в різних образах і на кожному етапі від визначення питання, дизайну дослідження, збору даних, управління даними, ... аж до аналіз та висновки), але це майже не мало для мене, щоб відчувати себе комфортно.

Я міг би вказати на приклади, але я не думаю, що це правильний форум для цього. (Було б добре, якби насправді був хороший форум для цього, але знову ж таки, він, швидше за все, досить швидко "політизується" і незабаром не зможе служити своєму призначенню.)

Я провів деякий час, ловлячись через PLOS ONE ... і знову, не збираючись вказувати на конкретні документи. Деякі речі, які я помітив: схоже, велика частка паперів має в них статистику, ймовірно, більше половини мають тести на гіпотези. Основна небезпека, як видається, чимало тестів, або з високим значенням як 0,05 на кожному (що автоматично не є проблемою, якщо ми розуміємо, що досить багато справді крихітних ефектів можуть виявитись як значні випадково), або неймовірно низький рівень індивідуальної значущості, який, як правило, дає низьку потужність. Я також бачив ряд випадків, коли близько півдесятка різних тестівαмабуть, застосовувались до вирішення точно такого ж питання. Це вражає мене загалом поганою ідеєю. Загалом стандарт був досить хорошим у кількох десятках паперів, але в минулому я там бачив абсолютно жахливий папір.

[Можливо, я міг би потурати лише одному прикладу, опосередковано. Це запитання задає питання про те, хто робить щось досить сумнівне. Це далеко не найгірше, що я бачив.]

З іншого боку, я також бачу (навіть частіше) випадки, коли люди змушені стрибати через усілякі непотрібні обручі, щоб прийняти їх аналіз; цілком розумні речі робити не приймаються, оскільки існує "правильний" спосіб робити речі за словами рецензента, редактора чи керівника, або просто у невимовній культурі певної області.


2
" Caveat lector ", враховуючи зростаючу кількість журналів із відкритим доступом?
Scortchi

1
@scortchi Я вирішив взагалі уникнути проблеми, просто написавши англійською. Це вдосконалення.
Glen_b

10
Не називаючи конкретних винуватців, я вважаю, що факультет.vassar.edu/abbaird/about/publications/pdfs/… заслуговує на згадку. Щоб довести думку про неправильне використання статистичних даних у своїй галузі, вони використовували широко використовуваний статистичний протокол для аналізу результатів сканування фМРТ мертвого лосося. Вони виявили "статистично значущу" мозкову діяльність. statisticsdonewrong.com також робить цікаве читання.
James_pic

1
@James_pic, довелося приєднатись до +1, щоб коментувати посилання statisticsdonewrong; особливо цікавим є обговорення помилковості базової ставки.
Дан Брайант

1
@KennyPeanuts: Ні - просто не вказує на те , що в даний час багато Lectores навіть не опосередковано emptores .
Scortchi

16

Я поважаю позицію @ Glen_b про правильний спосіб відповісти тут (і, звичайно, не збираюся її відволікати), але я не можу зовсім протистояти, вказуючи на особливо цікавий приклад, близький до мого будинку. Загрожуючи політизувати речі і робити це питання недобре, я рекомендую Wagenmakers, Wetzels, Boorsboom та Van Der Maas (2011) . Я цитував це у відповідному дописі про когнітивні науки бета SE ( Яким чином когнітивна наука пояснює віддалену інтенціональність та функцію мозку у реципієнтів? ), Де розглядається ще один приклад "дротика, що б'є кота". Стаття Wagenmakers та колег коментує безпосередньо справжнє "виття": вона була опублікована в JPSP (одному з найбільших журналів психології) Кілька років назад. Вони також загалом заперечують на користь байєсівського аналізу і що:

Для того, щоб переконати скептичну аудиторію у суперечливій заяві, потрібно провести суворо підтверджуючі дослідження та проаналізувати результати за допомогою статистичних тестів, які є більш консервативними, а не ліберальними.

Мені, мабуть, не потрібно говорити, що це точно не траплялося як проповідь хору. FWIW, є і спростування (як завжди, здається, є між байєсами і часто відвідувачами; ( Bem, Utts, & Johnson, 2011 ) , але я відчуваю, що це не точно підтвердило дебати .

Психологія як наукове співтовариство останнім часом зазнає певного кроку реплікації, що частково пояснюється цим та іншими гучними методологічними недоліками. Інші коментарі тут вказують на випадки , подібне до того , що коли - то були відомі як вуду кореляції в соціальній нейробіології (як це , що для політично некоректним BTW папір був перейменована ;? Вул, Харріс, Winkielman, і Pashler 2009 ). Це теж привернуло його спростування , яке ви можете перевірити, щоб отримати більше дебатів про дуже дискусійні практики.

Про ще більшу освіченість за (більш знеособлений) рахунок (псевдо) статистиків, які ведуть себе погано, дивіться наш 8-й найбільш поширений тут питання на CV з іншим (правда кажучи) політично некоректним заголовком " Що таке загальні статистичні гріхи? " @MikeLawrence приписує своє натхнення своїм паралельним вивченням психології та статистики. Це один із моїх особистих улюблених, і його відповіді дуже корисні, щоб уникнути незліченних підводних каменів там самому.


З особистої сторони я витрачав велику частину своїх останніх п’яти місяців тут значною мірою, тому що дивовижно важко отримати непогані статистичні дані щодо певних питань аналізу даних. Відверто кажучи, експертна оцінка часто взагалі не є дуже суворою, особливо з точки зору статистичного огляду досліджень молодих наук зі складними питаннями та безліччю епістемічних ускладнень. Отже, я відчував необхідність нести особисту відповідальність за полірування методів у власній роботі.

У той час як уявлення мого дисертаційного дослідження , у мене відчуття , як важливо особиста відповідальність за статистичну вивченість. Два виняткових психолога в моїй альма-матер заперечили, що я чинив один з найосновніших гріхів у своїх інтерпретаціях кореляцій. Я думав про себе вище, і вже кілька разів читав лекції про це, але я все-таки пішов туди і подзвонив на це (рано, дякую небесам). Я поїхав туди, тому що дослідження, які я переглядав і тиражував, пішов туди! Таким чином я закінчив додати до своєї дисертації кілька розділів Це закликало інших дослідників припускати причинність від квазіекспериментальних поздовжніх досліджень (іноді навіть із поперечних кореляцій) та передчасно ігнорувати альтернативні пояснення.

Моя дисертація була прийнята без змін моїм комітетом, до складу якого входили ще один винятковий психометрист і скоро президент, який стане президентом SPSP (який публікує JPSP), але якщо бути відвертим ще раз, я не хвалюся цим. З тих пір мені вдалося просунути декілька кролячих дірок своїми власними методами, незважаючи на те, що я пройшов процес зовнішнього огляду з ідеально хорошими рецензентами. Зараз я потрапив у глибокий кінець статистики, намагаючись підключити їх методами, більш підходящими для прогнозного моделювання рейтингів Лікерта, таких як SEM, IRT та непараметричний аналіз (див. Тест регресії після зменшення розмірів). Я бажаю добровільно витратити роки на папір, який я, мабуть, міг просто опублікувати як-натомість ... Я думаю, що мені навіть залишилося зробити симуляційне дослідження, перш ніж я зможу сумлінно продовжувати.

Але я підкреслюю, що це необов’язково - можливо, навіть надмірний і дорогий розкіш серед культури публікації чи загибелі, яка часто підкреслює кількість над якістю в робочих документах ранньої кар’єри. Неправильне застосування параметричних моделей для безперервних даних до розподілу порядкових даних, що порушують припущення, все занадто поширене в моєму полі, як і неправильне тлумачення та неправильне представлення статистичної значущості (див. Розміщення закріплених поглядів p-значень ). Я міг би повністю з цим піти (в короткому терміні) ... і навіть не все так важко зробити краще, ніж це. Я гадаю, що я маю кілька останніх років дивовижного прогресу в програмах R, щоб подякувати за це! Ось сподівання, що часи змінюються.


Список літератури
· Bem, DJ, Utts, J., & Johnson, WO (2011). Чи повинні психологи змінити спосіб аналізу своїх даних? Журнал особистості та соціальної психології, 101 (4), 716–719. Отримано з http://deanradin.com/evidence/Bem2011.pdf .
· Vul, E., Harris, C., Winkielman, P., & Pashler, H. (2009). Неймовірно висока кореляція в дослідженнях фМРІ про емоції, особистість та соціальне пізнання. Перспективи психологічної науки, 4 (3), 274–290. Отримано з http://www.edvul.com/pdf/VulHarrisWinkielmanPashler-PPS-2009.pdf .
·Wagenmakers, EJ, Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). Чому психологи повинні змінити спосіб аналізу своїх даних: Випадок пси. Журнал особистості та соціальної психології, 100 , 426–432. Отримано з http://mpdc.mae.cornell.edu/Courses/MAE714/Papers/Bem6.pdf .


1
Якщо вам сподобалося "Відчуття майбутнього", то, можливо, вам сподобається Witztum та ін. (1994), "Рівновіддалені послідовності букв у книзі Буття", Статист. Наук. , 9 , 3 . Це приваблювало неминучих шахраїв та най-кажуть: McKay et. ін. (1999), «Розв’язання головоломки Біблійного коду», Статист. Наук. , 14 , 2 .
Scortchi

1
@Scortchi: спасибі за довідку, а амеба: дякую за контекст. Я не бачу претензії у Witzum et al. що McKay та ін. знущатися над своєю рефератом, але вони впевнено вказують на багато інших серйозних недоліків. Хороший матеріал. "Хоча реальні дані можуть бентежити очікування вчених навіть тоді, коли їх гіпотези є правильними, ті, експерименти яких систематично налаштовані на їхні очікування, рідше розчаровуються (Розенталь, 1976)". Це один із хлопців, який викликав мене на причинному висновку, заснованому на квазіекспериментах ... справді чудовий психолог. Однак у Бема є і деяка довіра.
Нік Стаунер

2
+1 Відмінна публікація. " наскільки важлива особиста відповідальність за статистичний контроль " - я повинен аплодувати. Зрештою, саме тут повинна лежати відповідальність, настільки обтяжлива для того, хто вже намагається виконати роботу в галузі досліджень, до якої вони хочуть застосувати статистику.
Glen_b

1
@NickStauner: McKay та ін. в своєму рефераті кажуть, що Witzum et al. стверджують, що "єврейський текст Книги Буття" кодує події, які відбувалися не тисячоліття після написання тексту ". Можливо, незначна гіпербола, оскільки це вже не більше двох тисячоліть між написанням Тори та датою народження останнього рабина із їхнього списку, але достатньо справедливого резюме. (Я припускаю, що ви також можете бачити доповіді Witztum та ін. Як доказ останнього авторства Книги Буття, хоча, наскільки я знаю, ніхто цього не зробив.)
Scortchi - Відновлення Моніки

1
Так, я думаю, я не міг зрозуміти Witzum та ін. достатньо добре, щоб визнати, що вони заявляли це твердження. Один раз, мабуть, я можу бути вдячним за тупу письмові авторів ... Це виглядає як трохи цікавіше за номінал, тому що найвидатнішим твердженням є те, що модель не через випадковість, а не те, що, як передбачається, обумовлено на їхню думку. Він міг би запропонувати більш цікаві інтерпретації, як ваша, якби не переборщили, як McKay et al. скажіть, це так ... принаймні, поки Маккей та ін. їх збивали з методологічних міркувань, не залишаючи нічого вартісного тлумачення.
Нік Стаунер

5

Я пригадую, що в університеті кілька студентів із випускних курсів соціальних наук різного разу запитували (один з них отримав 1-е місце), як розробити середній показник для їхнього проекту, який мав кілька точок даних. (Отже, у них не було проблем із використанням програмного забезпечення, просто з концепцією, як робити математику за допомогою калькулятора.)

Вони просто видають мені порожні погляди, коли я запитую їх, якого типу середнього вони хотіли.

І все ж вони відчули необхідність внести деякі статистичні дані у свій звіт, оскільки це було зроблено - я очікую, що всі вони прочитали 101 документ, який мав статистику, не замислюючись про те, що означала статистика, якщо що-небудь.

Зрозуміло, що дослідник, який навчав їх впродовж 3-х років, не піклувався про правильність статистики, достатньою для того, щоб вселити розуміння студентам.

(У той час я був студентом комп'ютерних наук. Я публікую це як відповідь, оскільки коментар трохи довгий.)


Студенти - це зовсім інша бочка мавп, ІМО. Я б не звинувачував вчителя негайно за їх нерозуміння без додаткових доказів ... але якщо це буде так зрозуміло, як ви говорите, винен вчитель, я також не здивувався б.
Нік Стаунер

@ NickStauner, я звинувачую викладача в тому, що він недостатньо дбає про статистику; якщо б їх не хвилювало, на кожному екзаменаційному документі було б щонайменше одне запитання, яке потребувало певного розуміння статистики, на рівні "Як зв'язатись зі статистикою". Мені байдуже, чи знають студенти соціологічних наук як робити кальку, але вони повинні знати, як не вводити в оману.
Ян Рінроуз

Домовились, що вони повинні знати, але немає гарантій, що вони правильно зрозуміють це питання!
Нік Стаунер

@NickStauner, Так, але ви отримуєте лише те, що є мірою, тому ви не отримаєте студентів, які нічого не розуміють щодо статистики, якщо ви не поставите його на іспитах.
Ян Рінроуз

Знову ж таки, я схильний давати викладачам менше кредитів для результатів студентів. Чимало студентів (добре, може, не "вдосталь", але деякі) подбають про те, щоб навчитися заради себе, а деякі прийдуть до класу, вже знаючи значну частину матеріалу. Пробачте, якщо я занадто абсолютно інтерпретую ваш коментар; Я погодився б, що часто необхідно зле змусити мотивацію вчитися на учнів, і що тестування - це кращий спосіб навчитися, ніж рота, повторне навчання / читання лекцій.
Нік Стаунер

0

Як жахливо неповний список, я вважаю статистику найбільш правильною в 1) документах з фізики, за якими йдуть 2) статистичних документах, і найбільш нещасних у 3) медичних документах. Причини цього прості і пов'язані з повнотою вимог, що пред'являються до прототипічної моделі в кожній галузі.

У фізичних роботах рівнянь та прикладної статистики слід звертати увагу на збалансовані одиниці і найчастіше виникають причинно-наслідкові зв’язки та тестування на фізичні стандарти.

У статистиці 1) одиниці та причинність іноді ігноруються, припущення іноді евристичні, фізичне тестування занадто часто ігнорується, але рівність (або нерівність), тобто логіка, як правило, зберігається за індуктивним шляхом, коли останні не можуть виправити нефізичні припущення.

У медицині, як правило, одиниці ігноруються, рівняння та припущення, як правило, є евристичними, типово неперевіреними і часто хибними.

Природно, така сфера, як статистична механіка, швидше за все має важкі припущення, ніж, скажімо так, економіка, і це не відображається на талантах потенційних авторів у цих галузях. Це більше пов’язано з тим, яка частина того, що робиться, насправді перевіряється, і скільки тестування було зроблено історично в кожній галузі.


-7

Будь-який документ, який спростує нульову гіпотезу, використовує нікчемну статистику (переважна більшість побачених). Цей процес не може надати жодної інформації, яка не надана розміром ефекту. Далі вона нічого не говорить про те, чи є значний результат насправді причиною, яку теоретизує дослідник. Це вимагає продуманого дослідження даних для підтвердження непорозумінь. Найчастіше, якщо вони є, найсильніші з цих доказів навіть викидаються як "чужі люди".

Я не так добре знайомий з еволюцією / екологією, але у випадку психіки та медичних досліджень я б назвав рівень статистичного розуміння "сильно заплутаним" та "перешкодою для наукового прогресу". Люди повинні спростувати щось передбачене їх теорією, а не протилежне (нульова різниця / ефект).

На цю тему написано тисячі робіт. Шукайте гібридні суперечки NHST.

Редагувати: І я маю на увазі тест значимості нульової гіпотези має максимум нульового наукового значення. Ця людина вдаряється цвяхом по голові:

http://www.johnmyleswhite.com/notebook/2012/05/18/criticism-4-of-nhst-no-mechanism-for-producing-substantive-cumulative-knowledge/

Також: Пол Мел. 1967. Тестування теорії з психології та фізики: методологічний парадокс

Редагувати 3:

Якщо хтось має аргументи на користь корисності солом’яного NHST, що не потребує думки, "відкиньте гіпотезу про те, що швидкість потепління однакова, але НЕ приймайте це до того, що швидкість потепління не однакова" є раціональним Заява, я вітаю ваші коментарі.

Редагувати 4:

Що мав на увазі Фішер під наступною цитатою? Чи припускає він, що він думав: "Якщо модель / теорія A несумісна з даними, ми можемо сказати, що A помилково, але нічого про те, чи не відповідає дійсності A"?

"певно, що інтерес статистичних тестів для наукових працівників повністю залежить від їх використання у відкиданні гіпотез, які, таким чином, вважаються несумісними зі спостереженнями".

...

Тому це значною мірою додасть ясності, з якою розглядаються тести значущості, якби загалом було зрозуміло, що тести значущості при правильному використанні здатні відкинути або визнати недійсними гіпотези, наскільки це суперечать даним ; але що вони ніколи не здатні встановити їх як певно правдиві

Карл Пірсон та Р. А. Фішер про статистичні тести: обмін від природи 1935 року

Хіба що він припускав, що люди намагатимуться лише визнати неправдоподібними гіпотези, а не соломників? Або я помиляюся?


7
Msgstr "Цей процес не може надати жодної інформації, яка вже не передбачена розміром ефекту." це невірно, значення p надає деяку інформацію про те, наскільки незвичним буде цей розмір ефекту під нульовою гіпотезою, таким чином, він забезпечує елемент калібрування розміру ефекту. Не розумійте мене неправильно, я вважаю, що фактори Байєса є більш корисними, але говорити про те, що значення p є марною статистикою, це гіпербола.
Дікран Марсупіал

3
"Я вважаю, що всі моделі, які я (та інші) зауважую, варто згадати". Це саме та проблема, яка виникає при обговоренні клімату в блогах, людське око дуже добре бачить шаблони в даних, які виявляються просто шумом, і це робить співвідношення сигнал-шум у дискусії взагалі не корисним, щоб не було перешкоди для ідеї, яку потрібно перебрати, перш ніж розміщувати її в блозі! Це одна галузь науки, де статистика часто дуже бідна.
Дікран Марсупіал

2
Живо, я наводив вам конкретний приклад того, коли виконання відповідного NHST з «солом’яним чоловіком» H0 було б корисним для обговорення наукової теми. Це забезпечує чіткі контрприклад , який демонструє ваш погляд невірним - NHSTs, як помилковий , як вони, дійсно , проте виконує корисну функцію в області науки і статистикою. Тепер, якщо ви можете продемонструвати, що мій контрприклад є правильним, це може певний шлях до вирішення проблеми.
Дікран Марсупіал

2
@Livid, NHST виконує науково та статистично не соціально бажану функцію (хоча і не оптимально), і вона не встановлює довільної перешкоди, перешкода, як правило, визначається її протидією H1 і не передбачає вчинення "підтвердження наслідку помилки ", оскільки відхилення H0 не означає, що H1 є правдою. Так ні, це не точно.
Дікран Марсупіал

3
Ви пропускаєте суть. Якщо у вас низька перешкода, то ніхто не здивується, якщо ви зможете успішно домовитись про це. Однак якщо у вас низька перешкода, але ви все одно не можете її подолати, це вам щось говорить. Як я вже неодноразово казав, відхилення нуля не означає, що H1 є істинним, тому відхилення H0 не означає, що напевно є пауза, це не говорить вам, чому сталася пауза. Але якщо ви не зможете подолати перешкоду щодо можливості відхилити H0, це говорить про те, що, можливо, недостатньо доказів, щоб стверджувати H1 як факт (що відбувається в цьому випадку).
Дікран Марсупіал
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.