Як жорстко обгрунтувати вибрані помилково-позитивні / хибно-негативні коефіцієнти помилок та базовий коефіцієнт витрат?


12

Контекст

Група соціологів та статистиків ( Benjamin et al., 2017 ) нещодавно висловили припущення, що типовий хибнопозитивний показник ( = .05), який використовується як поріг для визначення "статистичної значущості", повинен бути пристосований до більш консервативного порогу ( α = .005). Конкуруюча група соціологів та статистиків ( Lakens et al., 2018 ) відповіла, аргументуючи використання цього - або будь-якого іншого - довільно вибраного порогу. Далі йде цитата Lakens et al. (стор. 16), що допомагає пояснити тему мого питання:αα

В ідеалі рівень альфа визначається шляхом порівняння витрат і вигод від функції корисності з використанням теорії рішення. Цей аналіз витрат і вигод (і, отже, альфа-рівень) відрізняється при аналізі великих існуючих наборів даних у порівнянні зі збиранням даних з важкодоступних зразків. Наука різноманітна, і вчені повинні виправдати рівень альфа, який вони вирішили використовувати. ... Дослідження повинні керуватися принципами суворої науки, а не евристикою та довільними порогами.

Питання

Мені цікаво, як можна було б виправдовувати обрану альфу способом, який "керується принципами суворої науки", як Лакенс та ін. припускають, у більшості суспільно-наукових контекстів (тобто поза окремими випадками, коли оптимізація має більш конкретну якість, наприклад прибуток)?

Після розповсюдження Lakens et al., Я почав бачити циркулятори в Інтернеті, щоб допомогти дослідникам прийняти це рішення. При їх використанні дослідникам потрібно вказати "коефіцієнт витрат" помилково-позитивних та помилково-негативних помилок. Однак, як цей калькулятор тут передбачає, визначення такого співвідношення з точки зору витрат може включати в себе багато кількісних навмання:

У той час як деякі витрати на помилки легко оцінити у грошовому вираженні (прямі витрати), іншим важко поставити долярну суму (непрямі витрати). ... Незважаючи на те, що важко визначити їх кількість, вам слід докласти зусиль, щоб додати число до них.

Наприклад, хоча Lakens та ін. пропонуємо вивчити важкодоступні зразки як фактор, який можна врахувати при виправданні альфа, здається, що все ще залишається здогадуватися, наскільки важкодоступний цей зразок, і, отже, як відповідно відкоригувати вибір альфа. Як інший приклад, мені здається складно оцінити витрати на публікацію помилково-позитивного, з точки зору того, скільки часу / грошей інші згодом взятимуть на проведення досліджень, виходячи з помилкового висновку.

Якщо визначення цього коефіцієнта витрат є значною мірою питанням суб'єктивного прийняття найкращих здогадок, я залишаюсь цікавим, чи можуть ці рішення колись (знову ж таки, поза оптимізацією чогось на зразок прибутку) бути "виправданими". Тобто таким чином, що існує поза припущень, зроблених щодо вибірки, компромісів, впливу тощо.? Таким чином, визначення співвідношення витрат помилково-позитивних / помилково-негативних помилок здається мені чимось подібним до вибору пріоритету в байєсівському висновку - рішення, яке може бути дещо суб'єктивним, впливати на результати, а тому обговорюється, - хоча я не впевнений, що це розумне порівняння.

Підсумок

Щоб зробити моє запит конкретним:

  1. Чи можуть помилково-позитивні / хибно-негативні ставки та їх співвідношення витрат коли-небудь "жорстко" виправдовуватися в більшості соціальних контекстів?
  2. Якщо так, то які узагальнюючі принципи можна було б дотримуватися для обґрунтування цих аналітичних виборів (і, можливо, приклад або два з них у дії)
  3. Якщо ні, чи є моя аналогія потенційної суб'єктивності у виборі співвідношення витрат - як такою, що схожа на попередній відбір Байесія - розумною?

Список літератури

Бенджамін, DJ, Бергер, Дж., Йоханнессон, М., Носек, BA, Wagenmakers, E., ... Джонсон, В. (2017, 22 липня). Перевизначення статистичної значущості. Отримано з psyarxiv.com/mky9j

Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 січня). Обґрунтуйте свою альфа. Отримано з psyarxiv.com/9s3y6


4
Чи можете ви визначити, як ви використовуєте "об'єктивно виправданий"? Ймовірності помилок типу I є перевагою дослідника ... як і апріорні ймовірності помилок типу II. Яким чином дослідник "об'єктивно обґрунтує", скажімо, переважну програму досліджень, бажаний науковий співробітник або фундатор, чи бажаний підхід до навчання та наставництва асистента?
Олексій

1
Об'єктивно виправданий, як більш ніж просто перевага. В даний час папір Lakens et al. Розповсюджується під короткою рукою "JYA" [Обґрунтуйте свою альфа ", і я читав їх аргументи, виходячи з вищенаведених цитат, - це не те, що старі переваги не будуть робити. Щоб було зрозуміло: я не обов'язково подаю аргумент, що можна об'єктивно виправдати обраний рівень помилок типу I / II. Швидше, мій запит спирається на тлумачення Lakens et al. припустити, що ви можете, і якщо це так, то я не розумію, як би це зробити.
jsakaluk

3
Я не бачу слова "об'єктивно" в цій цитаті від Lakens et al. Чи справді вони використовують це у своїх роботах? Якщо так, то, можливо, ви можете додати ще одну цитату, щоб надати якийсь конкретніший контекст? Якщо ні, то я не впевнений, що ви можете сказати такі речі, як "об'єктивно виправдовуючи вибрану альфу", як підказують Лакенс та ін. "
Амеба каже: Відновити Моніку

2
Я оновив пост, який тепер позбавлений "об'єктивності". Це не було моїм наміром неправильно характеризувати аргумент, але я можу зрозуміти, чи читачі думали, що я писав недбало. Лакенс та ін. Чи використовувати дескриптор «керуючись принципами наукової строгості», тому моє запитання тепер на міцному основі. Мені все ще залишається цікаво, що це може означати; як здається, що здогадки здаються більш суворими, ніж евристичні? Якщо це має значення, мені особливо цікаво, як науковий реаліст досягне стандарту «науково суворого» обґрунтування альфа.
jsakaluk

2
α

Відповіді:


1

(також розміщений на Twitter, але перепублікований тут) Моя спроба відповіді: Я не думаю, що обґрунтування може бути "чисто" об'єктивним, але воно може базуватися на критеріях, які можна визначити на раціональних / емпіричних засадах. Я думаю, що RSS - це приклад того, як ви могли б виправдати p <.005 для певних типів досліджень, але я також думаю, що є й інші обставини, коли інша альфа була б більш оптимальною, ніж <.005 (вища або нижча) залежно від яка альфа можлива і яка мета дослідження. Так, наприклад, якщо у вас є 5000 учасників і найменший розмір ефекту, що цікавить, - 10, ви можете використовувати p <.001 і мати 90% потужності (цифри складаються). На відміну від цього, скажіть, ви проводите невеликий експеримент як початковий «доказ концепції» для лінії досліджень. Ви можете мати N = 100, p <.10, 90% потужності,


1

Останнім часом я багато думав над тим самим питанням, і гадаю, що багато інших в психології також.

По-перше, кожне з ваших запитань стосується того, чи є вибір зроблений об'єктивно проти суб'єктивно, але (як інші зауважили тут) ви не повністю пояснили, що складе (на ваш погляд) об'єктивний та суб'єктивний вибір.

Вас може зацікавити документ Gelman & Hennig 2015, який розпаковує різноманітні цінності, що містяться у спільному використанні "об'єктивних" та "суб'єктивних" міток у науці. У їх формулюванні "об'єктивна" стосується цінностей прозорості, консенсусу, неупередженості та відповідності спостережуваній дійсності, тоді як "суб'єктивне" стосується значень численних точок зору та залежності від контексту.

Згідно з Вашим Питанням 3, на думку Байєса, ймовірність визначається як кількісна оцінка невизначеності щодо світу. З того, що я розумію, існує напруга в “суб’єктивістській байесівській” (ймовірності відображають окремі стани віри) та “об’єктивістській баєсівській” школі думки (ймовірності відображають правдоподібність консенсусу). В рамках об’єктивістської школи робиться більш сильний акцент на виправданні попереднього розподілу (і моделі в цілому) прозорим способом, який поєднується з консенсусом і це можна перевірити, але вибір моделі, безумовно, залежить від контексту (тобто , залежить від стану консенсусних знань для певної проблеми).

За участі частофілістської концепції, ймовірності відображають кількість разів, коли відбудеться подія за допомогою нескінченних незалежних реплікацій. В рамках Неймана-Пірсона людина встановлює точну альтернативну гіпотезу та точну альфа, приймає точну нульову чи точну альтернативу (що ефект популяції точно такий, як передбачено) на основі даних, а потім повідомляє про довгострокова частота цього помилково.

У цих рамках ми рідко маємо точну точну оцінку розміру ефекту населення, а скоріше діапазон правдоподібних значень. Тому, умовно для даної альфа, ми не маємо точної оцінки рівня помилок типу 2, а діапазон правдоподібних помилок типу 2. Так само я погоджуюся з вашим загальним пунктом, що ми зазвичай не маємо точного розуміння того, якими будуть фактично витрати та вигоди помилки типу 1 або помилки типу 2. Це означає, що ми часто стикаємося з ситуацією, коли у нас є дуже неповна інформація про те, якою повинна бути в першу чергу наша гіпотеза, і ще менше інформації про те, якими були б відносні витрати та переваги прийняття проти відхилення цієї гіпотези.

до ваших питань:

  1. Чи можуть помилково-позитивні / хибно-негативні ставки та їх співвідношення витрат коли-небудь об'єктивно виправдовуватися в більшості соціальних контекстів?

Я думаю, що так, оскільки обґрунтування може бути прозорим, може погоджуватися з консенсусом, може бути неупередженим і може відповідати дійсності (в тій мірі, в якій ми використовуємо найкращу доступну інформацію про витрати та вигоди).

Однак я вважаю, що такі обґрунтування є також суб'єктивними, оскільки може існувати декілька дійсних поглядів на те, як встановити альфа для даної проблеми, і що те, що є відповідною альфа, може бути значимо залежно від контексту.

Наприклад, останніми роками стало зрозуміло, що багато ефектів у літературі відображають помилки типу M або Type S. Вони також можуть відображати помилки типу 1, наскільки дослідження реплікації здатне надати докази для нульового ефекту, що має абсолютно нуль.

У зв'язку з цим спостереженням існує консенсус про те, що порогове значення для твердження з упевненістю слід зберігати однаково або робити більш суворим (тобто, ніхто не сперечається на збільшення альфа до .10 або .20). . Так само існує консенсус щодо того, що значення p не повинні використовуватися як критерій публікації (наприклад, формат зареєстрованого звіту).

Для мене це відображає своєрідне "об'єктивне" джерело інформації - тобто, на мій прочитання, існує зростаюча думка про те, що помилкові претензії дорого коштують на місцях (навіть якщо ми не можемо поставити суму долара на ці витрати). На мій прочитання, немає чіткого консенсусу, що невиконання порогу значення p - це драматична вартість поля. Якщо існують витрати, вони можуть бути зменшені, якщо невиконання порогу значення p не впливає на те, чи оцінка перетворить її на опублікований документ.

  1. Якщо так, то які узагальнюючі принципи можна було б дотримуватися для обґрунтування цих аналітичних виборів (і, можливо, приклад або два з них у дії)

Я не впевнений, але я схиляюся до якогось принципу, щоб рішення приймалися на основі прозорих (локальних чи глобальних) консенсусних суджень про витрати та вигоди різних видів аналітичного вибору в конкретному контексті, навіть у перед обличчям жахливо неповної інформації про те, якими можуть бути ці витрати та вигоди.

  1. Якщо ні, чи є моя аналогія потенційної суб'єктивності у виборі співвідношення витрат - як такою, що схожа на попередній відбір Байесія - розумною?

Так, серед частофілістських та байєсівських традицій є багато можливостей для суб'єктивності (тобто, безлічі перспектив та залежності від контексту), а також об'єктивності (тобто прозорості, консенсусу, неупередженості та відповідності реальності, що спостерігається) у багатьох різних аспектах статистичної моделі і як використовується ця модель (вибраний попередній час, вибрана ймовірність, обраний поріг рішення тощо).


Це приємна відповідь. Один твір, в якому я не такий впевнений, - це претензія на листування. Якщо ми розуміємо цей термін так само (я думаю в термінах кореспондентської теорії істини), то насправді це звучить, як листування може опинитися на хиткій землі, якщо ми не маємо точного уявлення про витрати типу I / II помилки. Натомість це звучить так, що є краща претензія на узгодженість (з огляду на ці початкові припущення, решта цифр "мають сенс") або прагматизм (наші здогадки про помилки типу I / II є корисним вигадкою для планування навчання).
jsakaluk

Можливо, я занадто сильно намагаюся одружитися з "виправданням" для кореспонденції / реалістичної точки зору, і в інших способах розуміння частоти помилок типу I / II можна вибрати таким чином, що є "виправданим"?
jsakaluk

Дякую, що вказали мені на ці ідеї. Я б сказав, що в будь-якому конкретному контексті ми можемо мати хорошу інформацію про можливі майбутні витрати та вигоди, або ми можемо мати дуже бідну інформацію. У дуже грубому сенсі зростає консенсус про те, що помилкові позитивні результати (p <поріг, справжній ефект точно дорівнює нулю) можуть бути більш шкідливими для поля, ніж випадки невиконання порогу значущості (але публікація оцінки все одно). У конкретних місцевих обставинах можуть виникнути більш серйозні витрати, пов'язані з недотриманням порогу значущості.
закваска

По суті, поняття «альфа» та «помилка 2 типу» існують лише в рамках НП, де аналітик вказав дві точні гіпотези та зобов’язується прийняти ту чи іншу в кінці процедури. Однак у звичайній практиці аналітиків часто попереджають не приймати нуль на основі несуттєвої оцінки з невизначеною потужністю, по суті, повертаючись до інтерпретації стилю Фішера, де немає прийняття нуля і «помилки типу 2».
закваска

1
Мені цікаво, що соціальні мережі, соціальний клас та соціальні взаємодії, що стоять за вашим описом "консенсусу", якимось чином відокремлені від суб'єктивних переконань та цінностей, які лежать в основі всіх них.
Олексій
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.