Дослідник 1 проводить 1000 регресій, дослідник 2 працює лише 1, обидва отримують однакові результати - чи повинні вони робити різні умовиводи?


12

Уявіть, що дослідник досліджує набір даних та виконує 1000 різних регресій, і він виявляє одне цікаве відношення між ними.

Тепер уявіть, що інший дослідник з тими ж даними виконує лише 1 регресію, і виявляється, що той самий дослідник взяв 1000 регресій, щоб знайти. Дослідник 2 не знає дослідника 1.

Чи повинен дослідник 1 робити інші умовиводи, ніж дослідник 2? Чому? Наприклад, чи повинен дослідник 1 проводити корекцію кількох порівнянь, але дослідник 2 не повинен?

Якщо дослідник 2 спочатку показав вам свою єдину регресію, які умовиводи ви б зробили? Якщо після цього дослідник 1 показав вам свої результати, ви повинні змінити свої умовиводи? Якщо так, то чому це має мати значення?

PS 1 : Якщо розмова про гіпотетичних дослідників робить проблему абстрактною, подумайте про це: уявіть, що ви провели лише одну регресію для своєї роботи, використовуючи найкращий доступний метод. Тоді інший дослідник досліджував 1000 різних регресій з тими ж даними, поки не виявив той самий регрес, який ви провели . Чи повинні ви двоє робити різні умовиводи? Чи докази однакові для обох справ чи ні? Чи варто змінити своє висновок, якби ви знали результати інших дослідників? Як громадськість повинна оцінювати докази двох досліджень?

PS 2: будь ласка, спробуйте бути конкретними та, якщо можливо, надати математичне / теоретичне обгрунтування!


1
Для правильного порівняння потрібно вказати всі нульові та альтернативні гіпотези. Дослідник 2 може перевірити лише 1 гіпотезу, тоді як дослідник 1, ймовірно, хоче контролювати тобі ймовірність не зробити помилку 1 типу 1 з 1000. Якщо це одночасне висновок, яке ви хочете зробити, то вам доведеться зробити коригування значення р. У дослідника 2 є один тест і не потрібно коригування. Для дослідника 1 ви підходите різні моделі до одних і тих же даних або одна модель підходить для кожного з 1000 наборів даних?
Майкл Р. Черник

1
@MichaelChernick є лише один набір даних. Дослідник 1 підходить 1000 моделей для одного і того ж набору даних, поки не знайде той, який йому подобається. Дослідник 2 вмістив лише 1. Обидва дослідники використовують однакові дані. Так ви б сказали, що цим двом дослідникам доведеться укладати різні речі з точно таким же набором даних? Дослідник 2 повинен бути по праву впевнений у своєму аналізі, тоді як дослідник 1 повинен завищувати інтервали p-значення / довіри через багаторазове порівняння?
statslearner

Якщо ви дотримувались мого аргументу, то це робиться в тому сенсі, що лише дослідник 2 перевіряє одну гіпотезу, тоді як дослідник 1 перевіряє 1000 гіпотез і повинен контролювати всі гіпотези, які він перевіряв. Це пов'язано з двома різними проблемами. Все ще невиразно, що ви маєте на увазі під «знаходженням лише одного цікавого стосунку». Можливо, ви думаєте, що ви створили парадоксальну ситуацію. Я не думаю, що у вас є.
Майкл Р. Черник

1
@MichaelChernick, як це не парадокс, коли саме ті самі дані з точно такою ж моделлю призводять до двох різних висновків? Якщо ви прочитали два окремі статті, що б ви зробили висновок?
statslearner

1
@MichaelChernick Я це зробив, і мені здається, що ви думаєте, що ви вважаєте, що це правильно --- точно такі ж дані, з точно такою ж моделлю, що призводить до двох різних висновків. Дивіться мої коментарі до відповіді.
statslearner

Відповіді:


3

1000

P(Mk|I1)=11000P(M1|I2)=1M1

M1P(M1|DI)>>P(M1|I)9991M1100010000pvalue<108

100102,000,000

Немає нічого принципово неправильного у двох людей, які починають з різної інформації та продовжують робити різні висновки після того, як побачили одні й ті самі дані. Однак ... побачення одних і тих же даних зблизить їх за умови, що їх "модельний простір" перекриється і дані підтримують цю "область, що перекривається".


Отже, основна частина Вашої претензії полягає в тому, що вони повинні робити різні умовиводи, оскільки вони мають різні пріори, а не тому, наскільки вони "дослідили дані", правильно?
statslearner

До речі, як би ви оцінили докази? Вас би хвилювало, скільки моделей дослідника 1 вмістили? Якщо так, то чому?
statslearner

Мені не обов'язково було б хвилюватись кількості підходящих моделей, але відомо про те, чи використовується модель, відомо зі ступенем визначеності. Як коротко згадую, я хотів би знати, чи існували розумні альтернативи. Наприклад, якби дослідник 1 прийняв рішення «куля лінії» про зменшення / додавання змінної, я хотів би побачити це.
ймовірністьлогічний

1
Чому б ви хотіли, щоб це було згаданим, чи змінило б це якось ваше? Ви використовуєте його як проксі для вас раніше? Мені незрозуміло те, яке картографування ви робите. Чому причини конкретного дослідника мають значення для вашого висновку, оскільки це взагалі не впливає на процес формування даних?
statslearner

1
Ми розглядаємо тут набір даних як зовнішній для дослідника, він не збирав його, і обидва дослідники використовують однакові дані. Здається , що причини висновки не можуть бути відтворені у психології, тому що вони просто використовують вільні пороги значущості , як в стандарті доказів , щоб судити кілька божевільну гіпотезу будь-яка розумна людина / вчений знайшов би їх апріорі смішно. Візьмемо наш випадок тут, якщо гіпотеза, перевірена на нашому прикладі, є чимось смішним, що створює таку владу, чи має значення, чи ми провели 1 чи 1000 регресій?
statslearner

7

Статистичне тлумачення набагато менш зрозуміле, ніж те, що ви просите, про математичне лікування.

Математика - це про чітко визначені проблеми. Наприклад, катання ідеальних кубиків або малювання кульок з урни.

Статистика застосовується в математиці, де математика дає орієнтир, але не є (точним) рішенням.

У цьому випадку очевидно, що обставини відіграють важливу роль. Якщо ми виконуємо регресію, а потім обчислюємо (математику) деяке значення p, щоб виразити силу, то що таке інтерпретація (статистика) та значення р?

  • У випадку 1000 регресій, проведених дослідником 1, результат набагато слабший, оскільки такий тип ситуацій виникає тоді, коли ми насправді не маємо підказки і просто вивчаємо дані. Значення р - це лише показник того, що може щось бути.

    Таким чином, значення p, очевидно, менш варте регресії, виконаної дослідником 1. І якщо дослідник 1 або хтось, хто використовує результати дослідника 1, хотів би щось зробити з регресією, то значення p потрібно виправити. (і якщо ви вважаєте, що різниці між дослідником 1 та дослідником 2 недостатньо, просто подумайте про безліч способів, які дослідник 1 може виправити значення р для кількох порівнянь)

  • У випадку єдиної регресії, здійсненої дослідником 2, результат є набагато сильнішими доказами. Але це тому, що регресія не стоїть сама. Ми повинні включити причини, через які дослідник 2 робив лише одну регресію. Це може бути тому, що він мав вагомі (додаткові) причини вже вважати, що одинична регресія є хорошою моделлю для даних.

  • Налаштування регресій, виконаних дослідником 1 і 2, сильно відрізняються, і не часто ви стикаєтесь з обома одночасно з однією і тією ж проблемою. Якщо це так, то і те

    • досліднику 2 дуже пощастило

      Це не так вже й рідко, і нам слід краще виправити це при інтерпретації літератури, а також слід покращити публікацію загальної картини досліджень. Якщо є тисяча дослідників, як дослідник 2, і ми побачимо лише один з них, який опублікував успіх, то, оскільки ми не побачили невдач інших 999 дослідників, ми можемо помилково вважати, що у нас не було такого випадку, як дослідник 1

    • Дослідник 1 був не такий розумний і робив неймовірно зайвий пошук регресу, хоча, можливо, з самого початку він знав, що це повинен бути той самий, і він міг би провести більш сильний тест.

      Для сторонніх людей, які розумніші за дослідника 1 (не піклуються про додаткові 999 регресії з самого початку) і читають про роботу, вони можуть дати більше сил на значення результатів, але все-таки не настільки сильні, як він би зробив для підсумок дослідника 2.

      Хоча дослідник 1, можливо, був занадто консервативним, виправляючи 999 зайвих додаткових регресій, ми не можемо ігнорувати той факт, що дослідження проводилися у вакуумі знань, і набагато більше шансів знайти щасливого дослідника типу 1, ніж типу 2.

Цікава пов’язана історія: В астрономії, коли вони планували кращий прилад для вимірювання космічного фону з більшою точністю, існували дослідники, які стверджували лише звільнити половину даних. Це тому, що для збору даних існує лише один знімок. Після того, як всі регресії були виконані десятками різних дослідників (а через неймовірну розмаїтість та креативність теоретика, безумовно, є якась відповідність всім можливим, випадковим, нахилам даних), немає можливості виконати новий експеримент для перевірки (тобто, якщо ви не зможете генерувати цілком новий Всесвіт).


1
+1 для @MartijnWeterings, як я вже говорив у коментарях, проблема була недостатньо поставлена ​​в математичному плані. У мене склалося враження, що ОП вважає, що існує парадокс, оскільки через те, що двох дослідників буде приведено до однакового вибору моделі, але той, хто робить 1000 регресій, штрафується через необхідність декількох питань порівняння. Я взагалі не вважаю це парадоксальним (не зрозуміло, але, думаю, ОП). Ви дали дуже красиво написану і правильну відповідь, яка також інтуїтивно пояснює, чому два випадки різні. Я думаю, що ОП має дати вашу відповідь перевірити!
Майкл Р. Черник


1
Крім того, я знаю, що це звичайна практика, але чи не вважаєте ви занепокоєння сказати, що один результат є "сильнішими доказами", ніж інший, коли вони є точно такою ж моделлю та даними з одного і того ж процесу генерування даних? Різне лише в тому, наскільки третя сторона переглянула дані, і це не повинно мати ніякого відношення до самого DGP або попередніх переконань щодо проблеми. Чи повинен, наприклад, аналіз дослідника пошкодити незнанням дослідника 1?
statslearner

1
@MartijnWeterings Чому наміри дослідника мають значення для інтерпретації даних? Якщо ви використовуєте це як евристику, як мирянин, що інтерпретує результат експерта, це добре. Але для вченого, який аналізує ці дані, здається, намір дослідника не повинен мати жодного стосунку до вашої інтерпретації доказів.
statslearner

1
Тож здається, що ви використовуєте поведінку дослідника як проксі для свого попереднього. Якщо дослідник провів 1000 регресій, це відповідало б низькому до цієї конкретної гіпотези. Якби він побіг лише 1, це відповідало б високому рівню цієї гіпотези. Якщо у вас були два випадки, то ви не знаєте, який до використання.
statslearner

1

Коротка історія: у нас не вистачає інформації, щоб відповісти на ваше запитання, оскільки ми нічого не знаємо про використані методи або зібрані дані.

Довга відповідь ... Справжнє питання полягає в тому, чи займається кожен дослідник:

  • сувора наука
  • сувора псевдонаука
  • дослідження даних
  • драгування даних або p-злом даних

Їх методи визначать силу інтерпретації їх результатів. Це тому, що деякі методи менш звукові, ніж інші.

У суворій науці ми розробляємо гіпотезу, визначаємо заплутані змінні, розробляємо контролі для змінних за межами нашої гіпотези, плануємо методи тестування, плануємо нашу аналітичну методологію, проводимо тести / збираємо дані, а потім аналізуємо дані. (Зверніть увагу, що аналітичні методи плануються до того, як відбудеться тест). Це найбільш суворо, тому що ми повинні прийняти дані та аналіз, які не узгоджуються з гіпотезою. Неприпустимо змінювати методи після факту, щоб отримати щось цікаве. Будь-яка нова гіпотеза з отриманих висновків повинна знову пройти той самий процес.

Під час псевдонауки ми часто беремо дані, які вже зібрані. Етично використовувати це складніше, оскільки легше додати упередженість до результатів. Однак досі можна слідувати науковому методу для етичних аналітиків. Хоча може бути важко встановити належний контроль, і це потрібно вивчити та відзначити.

Дослідження даних не ґрунтується на науці. Конкретної гіпотези немає. Не існує апріорної оцінки заплутаних факторів. Крім того, важко повернутися назад і повторно зробити аналіз, використовуючи ті самі дані, оскільки результати можуть бути пошкоджені попередніми знаннями або моделюванням, і немає нових даних, які можна використовувати для перевірки. Рекомендується жорсткий науковий експеримент для уточнення можливих взаємозв'язків, виявлених в результаті дослідницького аналізу.

Днопоглинання даних або P-злов - це те, коли "аналітик" проводить кілька тестів, сподіваючись на несподівану чи невідому відповідь або маніпулює даними, щоб отримати результат. Результати можуть бути простим збігом обставин, можуть бути результатом заплутаної змінної (ив), а можуть не мати значущих розмірів ефекту чи потужності.

Для кожної проблеми є деякі засоби, але їх потрібно ретельно оцінити.


1
Я вважаю, ви додаєте непотрібний шум до питання. Припустимо, вони використовували найкращі доступні методи. Дані збирали не вони, а статистичне агентство, тому вони не мали контролю над збиранням даних. Різниця лише в тому, наскільки кожен дослідник дослідив дані. Один з них багато досліджував, інший досліджував лише один раз. Обидва отримують однакову кінцеву модель з однаковими даними. Чи повинні вони робити різні умовиводи? І як це має вплинути на ваш висновок?
statslearner

Це не зайвий шум. Математика - математика. Якщо моделі однакові, то вони однакові. Те, як ви інтерпретуєте моделі, залежить від усіх інших змінних, які не входять у вашу проблему. Якщо ви ігноруєте всі інші контексти та дизайн або експерименти, відповідь проста, обидві моделі працюють однаково математично і обидва науково слабкі.
Адам Сампсон
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.