Необов’язкові правила зупинки не в підручниках


16

Правила зупинки впливають на взаємозв'язок між значеннями Р та коефіцієнтами помилок, пов'язаних з рішеннями. Нещодавній документ Simmons et al. 2011 р. Запроваджує термін свободи дослідника для опису колекції поведінки, яку вони вважають відповідальною за багато доповідей у ​​психологічній літературі, які, як було виявлено, не відтворюються.

З такої поведінки я зараз цікавлюсь необов'язковими правилами зупинки або незадекларованими проміжними аналізами. Я описую їх вплив на рівень помилок для своїх учнів, але вони, схоже, не описані в підручниках, якими користуються мої студенти (або не використовувати!). У головній книгарні мого університету є чотирнадцять підручників зі статистикою, які спрямовані на студентів початкового рівня з різних дисциплін, таких як біологія, бізнес, інженерія тощо. Тільки один із цих текстів містив індексний пункт "послідовне тестування", і жоден не мав позицію " правило зупинки '.

Чи є підручник зі статистикою на вступному рівні, який пояснює проблему необов'язкових правил зупинки?

Сіммонс, JP, Нельсон, LD та Сімонсон, США. (2011). Помилково-позитивна психологія: нерозкрита гнучкість у зборі та аналізі даних дозволяє представити щось як важливе . Психологічна наука, 22 (11), 1359–1366. doi: 10.1177 / 0956797611417632


1
Чи не усунеться ця проблема, якщо ви кинетесь на статистику частолістів та їдете за допомогою ІТ чи байєсівських методів? (Або навіть чисто машинне навчання, залежно від розміру вашого набору даних) Це не є легким - несумісна мешанка Fisher та NP не викликає нічого, крім проблем, навіть якщо це зроблено "правильно". Надалі більше не буде відвідувачів.
thedude

1
Так, проблеми не було б, якби не було використання методів, які повинні відповідати принципу частоти. Однак таке майбутнє може не прийти в цьому світі. Що це?
Майкл Лев - відновити Моніку

2
@Michael: Майже, безсумнівно, це (тобто ІТ) означає "теоретичну інформацію".
кардинал

На пов'язану тему: errorstatistics.com/2013/04/06/…
о.

2
@thedude з використанням іншої теоретичної бази вводить інші проблеми . Проблема тут полягає в тому, що ви ставитесь до математики як до чогось іншого, ніж просто до опису світу. Статистичні дані часто - це дуже корисний спосіб описати світ, байєсиан - інший. Жоден з них не забезпечить вам Оракул правди .
Indolering

Відповіді:


2

Ви не можете мати правило зупинки без уявлення про ваш розподіл та розмір ефекту - що ви не знаєте апріорі.

Також так, нам потрібно зосередитись на розмірі ефекту - і це ніколи не вважалося правильним вважати лише p-значеннями, і ми, звичайно, не повинні показувати таблиці або графіки, які показують p-значення або F-значення, а не розмір ефекту.

Існують проблеми з традиційним тестуванням висновку статистичної гіпотези (яке, за словами Коена, гідне своєї абревіатури, і Фішер та Пірсон обидва перевернулися б в могилах, якби побачили все, що сьогодні робиться в їхніх жорстоко протилежних назвах).

Щоб визначити N, вам потрібно було вже визначити цільову значущість та поріг потужності, а також зробити багато припущень щодо розподілу, і, зокрема, вам також потрібно було визначити розмір ефекту, який ви хочете встановити. Внутрішня послуга абсолютно правильна, що це має бути відправною точкою - який мінімальний розмір ефекту був би рентабельним!

"Нова статистика" рекомендує показувати розміри ефектів (як парні різниці, де це доречно), разом із пов'язаними стандартними відхиленнями або дисперсією (тому що нам потрібно зрозуміти розподіл), а також стандартні відхилення або довірчі інтервали (але остання вже є фіксація p-значення та рішення про те, чи прогнозуєте ви напрям чи ставку в кожному напрямку). Але встановлення мінімального ефекту зазначеного знака з науковим прогнозом дає це зрозуміло - хоча донауковий дефолт - це робити спроби та помилки та просто шукати відмінності. Але ви знову зробили припущення про нормальність, якщо підете цим шляхом.

Інший підхід полягає у використанні графіків коробки як непараметричного підходу, але умовності про вусів та лихах сильно різняться і вже тоді самі походять із припущень щодо розповсюдження.

Проблема зупинки насправді не є проблемою індивідуального встановлення дослідника чи не встановленням N, а в тому, що у нас є ціла громада тисяч дослідників, де 1000 набагато більше 1 / альфа для традиційного рівня 0,05. В даний час пропонується відповісти, щоб надати підсумкову статистику (середній, stddev, stderr - або відповідні "непараметричні версії - медіана тощо, як у boxplot) для полегшення мета-аналізу та представити комбіновані результати всіх експериментів, чи вони відбудуться досягти певного альфа-рівня чи ні.

Тісно пов'язана проблема багаторазового тестування, яка настільки ж загрожує труднощами, і де експерименти зберігаються надпросто в ім'я збереження потужності, в той час як методи аналізу над результатами пропонуються для аналізу результатів.

Я не думаю, що поки що не може бути підручника з підручників, який би вирішив це остаточно, оскільки ми все ще мало розуміємо, що робимо ...

На даний момент найкращим підходом є, мабуть, продовження використання традиційної статистики, найбільш відповідної до проблеми, у поєднанні з відображенням зведеної статистики - ефект і стандартна помилка, а N є найважливішим. Використання довірчих інтервалів в основному еквівалентно відповідному Т-тесту, але дозволяє порівняти нові результати з опублікованими більш значущим, а також дозволяє етос, що заохочує відтворюваність, та публікацію відтворених експериментів та мета-аналізів.

Що стосується інформаційно-теоретичного або байєсівського підходів, вони використовують різні інструменти і роблять різні припущення, але все ще не мають всіх відповідей, і, врешті-решт, стикаються з тими ж проблемами або гіршими, оскільки байєсівський висновок відступає від остаточного визначення відповідь і просто приводить докази відносних припущених або відсутніх пріорів.

Зрештою, машинне навчання також має результати, які потрібно враховувати для значущості - часто з CI або T-Test, часто з графіками, сподіваємось, спарювання, а не просто порівняння та використання відповідно компенсованих версій, коли розподіли не збігаються. У нього також є суперечки щодо завантажувальної та перехресної перевірки, зміщення та варіації. Найгірше, що він має схильність до генерації та тестування безлічі альтернативних моделей, просто ретельно параметризуючи всі алгоритми в одному з багатьох наборів інструментів, застосованих до наборів даних продумано заархівованих, щоб дозволити безперешкодне багаторазове тестування. Найгірше, що це все ще в темному віці, використовуючи точність, або ще гірше, ніж F-міру, для оцінки - а не методи, спрямовані на випадковість.

Я прочитав десятки праць з цих питань, але не зміг знайти нічого абсолютно переконливого - за винятком негативних досліджень або мета-аналізів, які, здається, вказують на те, що більшість дослідників не обробляють та інтерпретують статистику належним чином стосовно будь-якого "стандарту ", старий чи новий. Потужність, багаторазове тестування, розмір і раннє припинення, інтерпретація стандартних помилок та довірчих інтервалів ... це лише деякі питання.

Будь ласка, збийте мене - я хотів би, щоб я був неправдивим! На мій погляд, є багато води, але ми ще не знайшли дитину! На цьому етапі жоден із крайніх поглядів чи іменних підходів не виглядає перспективною як відповідь, і ті, хто хоче викинути все інше, ймовірно, втратили дитину.


Це не питання збивати вас, я не думаю, що для цих проблем МОЖЕ бути рішення. Ми люди, що визнають закономірності у світі, ми маємо вирішуватися з конвергентною обґрунтованістю. Після його бідної спроби довести бога, Декарт намагався досягти справедливої ​​сили. Іноді це є, іноді це не так, але ми здебільшого просто протиставляємо наші нескінченно малі сили когнітивних обчислень.
Indolering

1

Я не вірю, що факультативні "правила зупинки" є технічним терміном щодо оптимальної зупинки. Однак я сумніваюся, що ви знайдете набагато глибше обговорення цієї теми в підручниках зі статистики на рівні рівнів.

Цинічне обґрунтування цього полягає в тому, що всі студенти-суспільствознавці мають слабкі навички математики. Кращою відповіддю, IMHO, є те, що прості t-тести не підходять для більшості експериментів з суспільствознавства. Треба подивитися на силу ефекту і з'ясувати, чи це вирішує відмінності між групами. Перший може вказувати, що другий можливий, але це все, що він може зробити.

Заходи соціальних витрат, державне регулювання та урбанізація мають статистично значущі зв’язки із заходами релігійної поведінки. Однак, лише констатуючи p-значення, це обрамлення тесту в причинно-наслідковій залежності майже нічого. Дивіться наступне:

введіть тут опис зображення

Результати як соціальних витрат, так і урбанізації мають статистично значущі значення p, але витрати на добробут набагато сильніше співвідносяться. Ця витрата на добробут свідчить про такий міцний зв’язок з іншими заходами релігійності ( нерелігійний показник , а також комфорт у релігії ), для яких урбанізація навіть не досягає р-значення < .10, що говорить про те, що урбанізація не впливає на загальні релігійні вірування. Однак зауважте, що навіть соціальні витрати не пояснюють Ірландію чи Філіппіни, показуючи, що деякі інші ефекти порівняно сильніші, ніж витрати на соціальні послуги .

Спираючись на "правила припинення", може призвести до помилкових позитивних результатів, особливо в невеликих розмірах вибірки психології. Психологія як сфера справді стримується цими статистичними шенагінгами. Однак розміщення всієї нашої віри на довільній p-величині також досить нерозумно. Навіть якби ми всі надсилали свої зразки та твердження гіпотез до журналу перед проведенням експерименту, ми все одно зіткнулися б з помилковими позитивами, оскільки наукові колективи колективно переслідують статистичну значимість.

Правильне робити - це не зупиняти обмін даними, правильно робити опис результатів стосовно їх ефекту . Теорії оцінюються не тільки за точністю їх прогнозів, але і за корисністю цих прогнозів. Незалежно від того, наскільки хороша методика дослідження, препарат, який забезпечує 1% поліпшення симптомів застуди, не варто витрачати на упаковку в капсулу.

Оновлення Для того, щоб бути зрозумілим, я повністю погоджуюся з тим, що суспільствознавці повинні дотримуватися більш високого рівня: нам потрібно вдосконалити освіту, надати соціальним вченим кращі інструменти та підвищити рівень значущості до 3-сигма. Я намагаюся наголосити на недостатньо представленому пункті: переважна більшість досліджень з психології є марними, оскільки розмір ефекту такий малий.

Але з Amazon Turk я можу правильно компенсувати виконання 10 паралельних досліджень та підтримувати рівень довіри 3-сигми дуже дешево. Але якщо сила ефекту невелика, то існують значні загрози зовнішній обґрунтованості. Ефект від маніпуляцій може бути пов'язаний з новинною історією, впорядкуванням питань, або ...

У мене немає часу на есе, але питання якості соціальних наук виходять далеко за рамки шалених статистичних методів.


Я розумію, тут є певне співвідношення соціологічних (як правило, неекспериментальних досліджень) та клінічних випробувань. Однак ваше перше речення не має сенсу: правила зупинки - це величезна область дослідження в клінічних випробуваннях. Обґрунтуванням цього є те, що множинні співвіднесені гіпотези, протестовані послідовно, є частиною заздалегідь визначеного плану аналізу. Однак посилання в питанні про ОП не є проблемою поганої математики, вона є поганою наукою. Проведення декількох статистичних тестів, щоб «відчути» правильний аналіз та зупинитись, коли знайдеш значення, є поганою наукою, незалежно від того, як ти її скорочуєш.
АдамО

@AdamO Я згоден! Коли я писав це, я був недоградарем, який намагався використовувати методи обміну даними, і коли я переконався, що я все роблю правильно (що я був), початкові реакції, які я отримав від професорів та статистиків, були ... наївними. За іронією долі, стандартною операційною процедурою для лабораторій суспільних наук є проведення експериментальних досліджень, поки вони не знайдуть щось цікаве. Я робив те саме, але насправді намагався компенсувати це: p
Indolering

0

Стаття, яку ви цитуєте, не згадує про припинення правил і, здається, мало стосується існуючої проблеми. Єдине, дуже незначне співвідношення - це багаторазове тестування, яке є статистичною концепцією, а не науковою.

У літературі клінічних випробувань ви побачите, що правила зупинки встановлюються суворо з чіткою інформацією про умови, в яких буде "виглядати" дослідження: на основі календарного року чи зарахування на людину-роки, встановлення альфа-рівня та також обмежується вплив на "ефективні" проти "шкідливі" методи лікування. Справді, ми повинні дивитися на суворе проведення таких досліджень як на прикладі добре зробленої науки . FDA навіть піде так далеко, що після значного виявлення ефективності, відмінної від попередньо визначеної, для підтвердження цих результатів необхідно провести друге випробування. Це залишається проблемою настільки, що Томас Флеммінг рекомендує проводити всі клінічні дослідженняпідтверджений повністю незалежним другим підтверджувальним судом , проведеним окремими структурами. Настільки поганою є проблема помилково-позитивних помилок при розгляді життя та медичної допомоги.

З, здавалося б, нешкідливим наглядом, інші галузі науки увічнили погану етику в дослідженні. Дійсно, суспільні науки не впливають на методи лікування, які вони отримують, вони мають реферати та концептуальні моделі, які лише покращують наше розуміння взаємодії теорії та спостереження. Однак будь-який споживач соціальної науки, непрофесійний чи науковий, часто представляє суперечливі висновки: шоколад для вас корисний, шоколад для вас поганий (шоколад корисний для вас, до речі, цукор і жирв шоколаді для вас погано), секс - це добре для вас, шлюб робить вас сумними / шлюб робить вас щасливими. Поле відпущено поганою наукою. Навіть я винен працювати над аналізами, де я був незадоволений сильно причинною мовою, яка потім була прив’язана до настійних рекомендацій щодо політики та федеральної підтримки, абсолютно невиправданих і все-таки оприлюднених.

Стаття Сіммонса ефективно описує, як розкриття інформації допоможе зробити чіткі види «ярликів», які роблять дослідники в соціальних дослідженнях. У таблиці 1 Сіммонс наводить приклад того, як драгування даних різко збільшує помилково позитивні помилки таким чином, як типовий для неетичного вченого "риболовлю на результати". Підсумок висновків у таблиці 2 описує часто опущені аспекти статей, які могли б значно покращити розуміння того, як можливо було проведено більше одного аналізу.

Підсумовуючи, зупиняти правила було б доцільно лише заздалегідь визначеною гіпотезою: вони є етично обґрунтованими та потребують статистичних методів. Стаття Сіммонса визнає, що велика частина досліджень навіть цього не дає, і це етично не є голосною, але статистична мова є переконливою, чому саме це неправильно.


Я не розумію, чому ви б сказали, що цитований документ мало стосується проблеми. Він містить розділ заголовків під назвою "Детальніше про гнучкість у розмірі вибірки", що стосується необов'язкової зупинки. По-іншому подивіться.
Майкл Лев - відновлення Моніки

@MichaelLew, щоб підсумувати відповідь: правила припинення пов'язані з клінічними випробуваннями, набором та подальшою діяльністю, але тестуванням єдиної заздалегідь визначеної гіпотези, це прийнятна практика дослідження приладів FDA та терапевтичних засобів. Доповідь Сіммонса стосується дослідницької етики, критеріїв та п-хакінгу в дослідженнях соціальної медицини та вчених. Чи можете ви описати точніше, як ви бачите відношення? Можливо, ви можете відредагувати свою публікацію, щоб визначити терміни та надати посилання на іншу літературу, зокрема стосовно "правил зупинки", яких AFAIK не існує поза клінічними випробуваннями.
AdamO

Я також не думаю, що ваша характеристика "інших галузей науки увічнила погану етику в дослідженні" є справедливою чи корисною. Суть мого первісного питання полягає в тому, що, мабуть, немає причин, щоб користувачі статистики за сумісництвом навіть знали про можливі проблеми, що виникають в результаті недекларованого проміжного аналізу. Несправедливо називати незнання неетичним.
Майкл Лев - відновити Моніку

@MichaelLew, що ти визначаєш як "проміжний аналіз"?
АдамО

Адам, я не вважаю, що ви правильні, сказавши, що "правила припинення дії не існують поза клінічними випробуваннями". Вони можуть не часто згадуватись поза клінічними випробуваннями (див. Моє оригінальне запитання), але вони існують для кожного експерименту. Навіть випробування з фіксованим розміром вибірки має правило зупинки "продовжуйте, поки не буде досягнуто розміру вибірки".
Майкл Лев - відновлення Моніки
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.