Чи справді це працює як p-значення? Чи може мільйон наукових робіт на рік базуватися на чистому випадковості?

98

Я дуже новачок у статистиці, і я просто вчусь розуміти основи, включаючи . Але зараз у мене в голові величезний знак запитання, і я сподіваюся, що моє розуміння неправильне. Ось мій процес мислення: $p$

Чи не всі дослідження в усьому світі дещо схожі на мавп у "нескінченній теоремі мавп"? Врахуйте, що у світі є 23887 університетів. Якщо кожен університет має 1000 студентів, це щороку 23 мільйони студентів.

Скажімо, щороку кожен студент робить принаймні один дослідний матеріал, використовуючи тестування гіпотез з . $\alpha=0.05$

Чи це не означає, що навіть якби всі дослідницькі зразки були взяті з випадкової сукупності, приблизно 5% з них «відкинули б нульову гіпотезу як недійсну». Ого. Подумайте над цим. Це близько мільйона наукових робіт на рік, які публікуються завдяки «значним» результатам.

Якщо це так працює, це страшно. Це означає, що багато «наукової правди», яку ми сприймаємо як належне, ґрунтується на чистому випадковості.

Простий фрагмент коду R, здається, підтримує моє розуміння:

library(data.table)
dt <- data.table(p=sapply(1:100000,function(x) t.test(rnorm(10,0,1))$p.value))
dt[p<0.05,]

Так само і ця стаття про успішний риболовлі: я обдурив мільйони, думаючи про шоколад, допомагає схуднути. Ось як . $p$

Це справді все, що там є? Це так, як повинна працювати «наука»?

hypothesis-testing statistical-significance p-value

— n_mu_sigma
джерело

31

Справжня проблема потенційно набагато гірша, ніж множення кількості справжніх нулів на рівень значущості через тиск, щоб знайти значущість (якщо важливий журнал не опублікує несуттєвих результатів, або арбітр відхилить документ, який не мати вагомі результати, є тиск, щоб знайти спосіб досягти значущості ... і ми багато бачимо експедицій "полювання на значимість" у багатьох питаннях тут); це може призвести до справжнього рівня значущості, який набагато вище, ніж здається.

— Glen_b

5

З іншого боку, багато нульових гіпотез є точковими нулями, і це дуже рідко насправді є істинним.

— Glen_b

37

Будь ласка, не пов'язуйте науковий метод з р-значеннями. Крім усього іншого, наука наполягає на відтворюваності . Ось як можна було опублікувати документи про, скажімо, про холодний синтез (у 1989 р.), Але холодний синтез не існував як наукова теорія протягом останніх чверті століття. Зауважимо також, що мало хто з учених зацікавлений працювати у сферах, де відповідна нульова гіпотеза насправді відповідає дійсності . Таким чином, ваша гіпотеза про те, що «всі дослідницькі зразки були вилучені з [a] випадкової сукупності», не відображає нічого реалістичного.

— whuber

13

Обов’язкове посилання на мультфільм з квасолею xkcd . Коротка відповідь - це, на жаль, трапляється занадто часто, і деякі журнали зараз наполягають на тому, щоб статистик переглядав кожну публікацію, щоб зменшити кількість «значущих» досліджень, які пробиваються у загальнодоступне надбання. Багато попередніх відповідей та коментарів у цій попередній дискусії

— Флоріс,

8

Можливо, я не отримую скарги ... "Ми успішно перемогли 95% хибних гіпотез. Решта 5% було не так просто перемогти через випадкові коливання, що виглядають як значущі наслідки. Ми повинні придивитись до них уважніше і ігнорувати інші 95% ". Це звучить точно як правильний тип поведінки для будь-якого типу "науки".

— Ерік Тауерс

70

Це, безумовно, поважно, але це не зовсім правильно.

Якщо буде проведено 1 000 000 досліджень і всі нульові гіпотези вірні, то приблизно p 50000 матиме значні результати при р <0,05. Ось що означає значення ap. Однак нуль по суті ніколи не суворо відповідає дійсності. Але навіть якщо ми послабимо це на «майже правду» або «приблизно правильно» або на щось подібне, це означатиме, що тисячі досліджень повинні мати приблизно такі речі, як

Зв'язок між номером соціального страхування та IQ
Чи пов’язана довжина пальців ніг зі станом вашого народження?

і так далі. Дурниці.

Одна з проблем - це, звичайно, те, що ми не знаємо, які нулі справжні. Ще одна проблема - та, яку згадував у своєму коментарі @Glen_b - проблема з ящиком файлів.

Ось чому мені так подобаються ідеї Роберта Абелсона, які він викладає в статистиці як принциповий аргумент . Тобто статистичні докази повинні бути частиною принципового аргументу щодо того, чому щось відбувається, і їх слід судити за критеріями MAGIC:

Величина: Наскільки великий ефект?
Артикуляція: чи повна "ifs", "ands" та "buts" (це погано)
Загальність: Наскільки широко воно застосовується?
Цікавість
Надійність: Неймовірні претензії вимагають багато доказів

— Пітер Флом
джерело

4

Чи можна навіть сказати: "Якщо проведено дослідження 1М, і навіть якщо всі нульові гіпотези є істинними, то приблизно 50 000 зробить помилку типу 1 і неправильно відкине нульову гіпотезу? Якщо дослідник отримує р <0,05, вони знають лише, що" h0 правильний і рідкісна подія трапилася АБО h1 невірна ". Немає способу сказати, що це, лише дивлячись на результати цього одного дослідження, чи не так?

— n_mu_sigma

5

Отримати помилковий позитив можна лише тоді, коли позитив насправді є хибним. Якби ви вибрали 40 IV, які були всіма шумами, ви мали б хороший шанс помилки I типу. Але загалом ми обираємо ІV з причини. І нуль хибний. Ви не можете зробити помилку типу I, якщо нуль помилковий.

— Пітер Флом

6

Я взагалі не розумію вашого другого пункту, включаючи пункти від куль. Скажімо, для аргументу всі 1 мільйон досліджень тестували лікарські сполуки на вилікування конкретного стану. Нульова гіпотеза кожного з цих досліджень полягає в тому, що препарат не виліковує стан. Отже, чому це повинно бути "по суті ніколи не суворо істинно"? Крім того, чому ви вважаєте, що всі дослідження повинні стосуватися безглуздих стосунків, наприклад ss # та IQ? Дякую за будь-яке додаткове пояснення, яке може допомогти мені зрозуміти вашу думку.

— Челоніан

11

Щоб зробити приклади @ PeterFlom конкретними: перші три цифри SSN (раніше) кодують поштовий індекс заявника. Оскільки окремі штати мають дещо різні демографічні показники, а розмір пальців ніг може бути співвіднесений з деякими демографічними факторами (віком, расою тощо), майже напевно існує залежність між номером соціального страхування та розміром пальця ноги - якщо для цього достатньо даних.

— Метт Крауз

6

@MattKrause хороший приклад. Я віддаю перевагу підрахунку пальців за статтю. Я впевнений, якби я провів перепис усіх чоловіків і всіх жінок, я виявив би, що одна стать має в середньому більше пальців, ніж інша. Не беручи надзвичайно великого зразка, я не маю уявлення, яка стать має більше пальців. Крім того, я сумніваюся, що як виробник рукавичок я б використав дані переписів пальців у дизайні рукавичок.

— emory

40

Чи не всі дослідження в усьому світі дещо схожі на мавп "нескінченної теореми мавп"?

Пам'ятайте, вчені критично НЕ люблять нескінченних мавп, тому що їх дослідницька поведінка - особливо експериментування, - це все, крім випадкових. Експерименти - це, принаймні, припустимо, неймовірно ретельно контрольовані маніпуляції та вимірювання, які базуються на механічно обґрунтованих гіпотезах, що ґрунтуються на значній частині попередніх досліджень. Вони не є просто випадковими пострілами в темряві (або мавповими пальцями на машинках).

Врахуйте, що у світі є 23887 університетів. Якщо кожен університет має 1000 студентів, це щороку 23 мільйони студентів. Скажімо, щороку кожен студент робить принаймні одне дослідження,

Ця оцінка для кількості опублікованих результатів досліджень повинна бути далеко не такою. Я не знаю, чи є у світі 23 мільйони "студентів університету" (чи це просто включає університети чи коледжі?), Але я знаю, що переважна більшість з них ніколи не публікує жодних наукових висновків. Я маю на увазі, більшість з них не є спеціальностями, і навіть більшість наукових спеціальностей ніколи не публікують висновки.

Більш імовірна оцінка (деяка дискусія ) для кількості наукових публікацій щороку становить близько 1-2 мільйонів.

Чи це не означає, що навіть якби всі дослідницькі зразки були вилучені з випадкової сукупності, приблизно 5% з них «відкинули б нульову гіпотезу як недійсну». Ого. Подумайте про це. Це близько мільйона наукових робіт на рік, які публікуються завдяки «значним» результатам.

Майте на увазі, що не у всіх опублікованих дослідженнях є статистичні дані, де значення має значення р = 0,05. Часто можна побачити значення p, наприклад, p <0,01 або навіть p <0,001. Я, звичайно, не знаю, яке середнє значення p перевищує мільйон паперів.

Якщо це так працює, це страшно. Це означає, що багато «наукової правди», яку ми сприймаємо як належне, ґрунтується на чистому випадковості.

Також майте на увазі, що вчені насправді не повинні брати невелику кількість результатів у р близько 0,05 як "наукову істину". Навіть близько не. Вчені повинні інтегруватись у багато досліджень, кожне з яких має відповідну статистичну потужність, правдоподібний механізм, відтворюваність, масштабність ефекту тощо, і включити це до попередньої моделі того, як працює якесь явище.

Але чи означає це, що майже вся наука є правильною? У жодному разі. Вчені люди і стають жертвою упередженості, поганої методології дослідження (включаючи неправильні статистичні підходи), шахрайства, простої людської помилки та невдачі. Напевно, більш домінуючим у тому, чому здорова частина опублікованої науки помиляється, є ці фактори, а не p <0,05 конвенція. Насправді, давайте просто вирішимо погоню та зробимо ще «страшнішу» заяву, ніж те, що висунули:

Чому більшість опублікованих досліджень є помилковими

— Челонський
джерело

10

Я б сказав, що Іоанідіс висуває суворий аргумент, який підтримує це питання. Наука не робить нічого подібного, як і здається, що оптимісти, відповідаючи на це, думають. І багато опублікованих досліджень ніколи не повторюються. Більше того, при спробі реплікації результати, як правило, підкріплюють аргумент Іоанідіса про те, що багато опублікована наука в основному є замкненими.

— matt_black

9

Може представляти інтерес, що у фізиці частинок наш поріг значення р для ствердження відкриття становить 0,00000057.

— David Z

2

І в багатьох випадках взагалі відсутні значення p. Математика та теоретична фізика - поширені випадки.

— Davidmh

21

$p$

$\alpha$

Дивіться, наприклад, це нещодавнє обговорення документа 2014 року Девіда Колхуна: Плутанина з частотою виявлення помилок та багаторазовим тестуванням (на Colquhoun 2014) . Я сперечаюся проти цієї оцінки "принаймні на 30%", але я згоден, що в деяких галузях дослідження показник помилкового виявлення може бути набагато вищим за 5%. Це справді хвилює.

Я не думаю, що сказання про те, що нуль майже ніколи не відповідає дійсності, тут не допомагає; Помилки типу S і Type M (як ввів Ендрю Гельман) не набагато краще, ніж помилки типу I / II.

Я думаю, що насправді це означає, що ніколи не слід довіряти ізольованому «значущому» результату.

$\alpha\approx 10^{-7}$ $\alpha=0.05$

$p<0.05$ $p$

$p<0.05$

— амеби
джерело

Повторне "сукупне значення p": Чи можете ви просто помножити окремі значення p, чи вам потрібно зробити якусь жахливу комбінаторику, щоб вона працювала?

— Кевін

p

$p$

α

$\alpha$

p

$p$

17

Ваша стурбованість - це саме та стурбованість, яка лежить в основі великої частини поточної дискусії в галузі науки про відтворюваність. Однак справжній стан справ трохи складніше, ніж ви пропонуєте.

Спочатку давайте встановимо деяку термінологію. Тестування значимості нульової гіпотези можна розуміти як проблему виявлення сигналу - нульова гіпотеза є істинною, або помилковою, і ви можете вибрати її відхилити або зберегти. Поєднання двох рішень та двох можливих "справжніх" станів справ призводить до наступної таблиці, яку більшість людей бачать у якийсь момент, коли вони вперше вивчають статистику:

введіть тут опис зображення

Вчені, які використовують тестування значущості гіпотез, намагаються збільшити кількість правильних рішень (синім кольором) та мінімізувати кількість неправильних рішень (показаних червоним кольором). Працюючі вчені також намагаються опублікувати свої результати, щоб вони могли отримати роботу та просунути свою кар’єру.

$H_0$

Упередженість публікації

$\alpha$

$p$

Ступінь свободи дослідника

$\alpha$ $\alpha$ . Враховуючи наявність достатньо великої кількості сумнівних методів дослідження, показник помилкових позитивних результатів може досягати 0,6, навіть якщо номінальний показник був встановлений у розмірі 0,05 ( Simmons, Nelson, & Simonsohn, 2011 ).

Важливо відзначити, що неправильне використання ступеня свободи дослідника (що іноді відоме як сумнівна дослідницька практика; Мартінсон, Андерсон, Де де Вріс, 2005 ) не є збігом даних. У деяких випадках виключення людей, що випадають, це правильне рішення, або через те, що обладнання виходить з ладу, або з іншої причини. Ключове питання полягає в тому, що за наявності ступеня свободи дослідника рішення, прийняті під час аналізу, часто залежать від того, як виявляються дані ( Gelman & Loken, 2014), навіть якщо відповідні дослідники не знають про цей факт. Поки дослідники використовують дослідницькі ступені свободи (свідомо чи несвідомо) для збільшення ймовірності значного результату (можливо, тому, що значні результати є більш "оприлюднювальними"), наявність дослідницьких ступенів свободи перенаселить дослідницьку літературу з помилковими позитивами у так само, як і упередження публікацій.

Важливим застереженням вищезгаданої дискусії є те, що наукові праці (принаймні з психології, яка є моєю сферою) рідко складаються з одиничних результатів. Більш поширеними є багаторазові дослідження, кожне з яких включає багато тестів - акцент робиться на побудові більшого аргументу та виключенні альтернативних пояснень представлених доказів. Однак вибіркове представлення результатів (або наявність ступеня свободи дослідника) може створити упередженість у наборі результатів так само легко, як і єдиний результат. Є докази того, що результати, представлені у багатодослідних роботах, часто набагато чистіші та сильніші, ніж можна було б очікувати, навіть якби всі прогнози цих досліджень були справдими ( Francis, 2013 ).

Висновок

В принципі я погоджуюся з вашою інтуїцією, що тестування значимості нульової гіпотези може піти не так. Однак я б заперечував, що справжніми винуватцями, які виробляють високу кількість помилкових позитивних результатів, є такі процеси, як упередженість публікації та наявність ступеня свободи дослідника. Дійсно, багато вчених добре знають ці проблеми, і поліпшення відтворюваності науки є дуже активною темою дискусії (наприклад, Nosek & Bar-Anan, 2012 ; Nosek, Spies, & Motyl, 2012 ). Тож ви в хорошій компанії зі своїми турботами, але я також думаю, що є також причини для обережного оптимізму.

Список літератури

Stern, JM, & Simes, RJ (1997). Упередженість публікації: дані про затримку публікації в когортному дослідженні клінічних дослідницьких проектів. BMJ, 315 (7109), 640–645. http://doi.org/10.1136/bmj.315.7109.640

Дуан, К., Альтман, Д.Г., Арнаїз, Дж. А., Блум, Дж., Чан, А., Кронін, Е.,… Вільямсон, PR (2008). Систематичний огляд емпіричних доказів зміщення публікацій дослідження та зміщення звітності про результати. PLOS ONE, 3 (8), e3081. http://doi.org/10.1371/journal.pone.0003081

Розенталь, Р. (1979). Проблема з ящиком файлів та толерантність до нульових результатів. Психологічний вісник, 86 (3), 638–641. http://doi.org/10.1037/0033-2909.86.3.638

Сіммонс, Дж. П., Нельсон, LD та Сімонсон, США. (2011). Хибнопозитивна психологія: нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити що-небудь як важливе. Психологічна наука, 22 (11), 1359–1366. http://doi.org/10.1177/0956797611417632

Martinson, BC, Anderson, MS, і de Vries, R. (2005). Вчені поводяться погано. Природа, 435, 737–738. http://doi.org/10.1038/435737a

Гельман, А., Локен, Е. (2014). Статистична криза в науці. Американський вчений, 102, 460-465.

Френсіс, Г. (2013). Реплікація, узгодженість статистики та зміщення публікацій. Журнал математичної психології, 57 (5), 153–169. http://doi.org/10.1016/j.jmp.2013.02.003

Носек, Б.А., і Бар-Анан, Ю. (2012). Наукова утопія: І. Відкриття наукової комунікації. Психологічний розслідування, 23 (3), 217–243. http://doi.org/10.1080/1047840X.2012.692215

Носек, Б.А., Шпигуни, Ю.Р., і Мотиль, М. (2012). Наукова утопія: II. Реструктуризація стимулів та практик для просування правди щодо публічності. Перспективи психологічної науки, 7 (6), 615–631. http://doi.org/10.1177/1745691612459058

— Патрік С. Форшер
джерело

1

+1. Приємна колекція посилань. Ось один дуже релевантний документ для вашого розділу "Дослідницькі ступені свободи": Сад розгалуження доріжок: Чому багаторазове порівняння може бути проблемою, навіть коли немає "риболовної експедиції" чи "р-злому", і гіпотеза дослідження була поставлені достроково Ендрю Гелманом та Еріком Локеном (2013).

— амеба

Дякую, @amoeba, за цю цікаву інформацію. Мені особливо подобається, що Гельман та Локен (2013) роблять, що використання капіталу свободи дослідника не повинно бути свідомим процесом. Я відредагував свою відповідь, щоб включити цей документ.

— Патрік С. Форшер

Я щойно знайшов опубліковану версію Gelman & Loken (2014) в American Scientist.

— Патрік С. Форшер

10

Істотна перевірка важливого питання, порушеного в цьому питанні, полягає в тому, що "наукова правда" не базується на окремих, ізольованих публікаціях. Якщо результат буде достатньо цікавим, це спонукає інших вчених продовжувати наслідки результату. Ця робота, як правило, підтверджує або спростовує первісну знахідку. Можливо, є 1/20 шансу відкинути справжню нульову гіпотезу в індивідуальному дослідженні, але лише 1/400 зробити це двічі поспіль.

Якби вчені просто повторили експерименти, поки не знайдуть "значення", а потім опублікують свої результати, проблема може бути такою ж великою, як пропонує ОП. Але так не працює наука, принаймні в моєму майже 50-річному досвіді в галузі біомедичних досліджень. Крім того, публікація рідко про єдиний "значущий" експеримент, але ґрунтується на наборі взаємозалежних експериментів (кожен повинен бути "значущим" сам по собі), які разом забезпечують більш широку, змістовну гіпотезу.

Набагато більша проблема виникає вчених, які занадто віддані власним гіпотезам. Потім вони можуть надмірно інтерпретувати наслідки окремих експериментів для підтримки своїх гіпотез, займатися сумнівним редагуванням даних (наприклад, довільним видаленням інших людей) або (як я бачив і допоміг зловити) просто складати дані.

Наука, однак, є дуже соціальним процесом, незалежно від міфології про божевільних вчених, які ховаються високо в вежах із слонової кістки. Дати і приймати серед тисяч науковців, що переслідують свої інтереси, виходячи з того, що вони дізналися від роботи інших людей, є остаточним інституційним захистом від помилкових позитивних результатів. Помилкові висновки іноді можуть тривати протягом багатьох років, але якщо питання є достатньо важливим, процес з часом визначить помилкові висновки.

— EdM
джерело

6

1 / 4000

$1/4000$

40

$40$

2

З 23М досліджень ми все ще не могли сказати, чи 5.000 результатів відкидають нульову гіпотезу лише через шум, чи не могли? Це дійсно також проблема масштабу. Після того, як ви проведете мільйони досліджень, помилка типу 1 буде поширеною.

— n_mu_sigma

3

Якби з 23 000 000 досліджень було лише 5000 помилкових висновків, я б це назвав справді рідкісними !

— whuber

3

Майже 50 років займаючись наукою та знаючи інших вчених, я не можу придумати жодного, хто повторив експерименти, поки не досяг «значущості». Теоретична можливість, яку створив @whuber, на мій досвід, не є великою практичною проблемою. Набагато більшою практичною проблемою є складання даних, або опосередковано, викинувши "чужих людей", які не відповідають попереднім уявленням, або просто склавши "дані" для початку. Таку поведінку я бачив з перших рук, і їх неможливо виправити, регулюючи p -значення.

— EdM

3

@EdM "Можливо, є 1/20 шансу відхилити справжню нульову гіпотезу в індивідуальному дослідженні, але лише 1/4000 зробити це двічі поспіль." Як ви отримали другий номер?

— Аксакал

5

Просто додати до дискусії, ось цікавий пост та подальша дискусія про те, як люди зазвичай не розуміють p-значення.

У будь-якому випадку слід зберегти те, що значення р - це лише міра міцності доказів у відхиленні заданої гіпотези. Значення р, безумовно, не є жорстким порогом, нижче якого щось є "справжнім" і над яким воно обумовлено лише випадковістю. Як пояснено у публікації, на яку посилалося вище:

Результати - це поєднання реальних ефектів та випадкових випадків, це не є або /

— Антуан
джерело

можливо, це сприятиме розумінню p-значень: stats.stackexchange.com/questions/166323/…

4

Як також вказувалося в інших відповідях, це спричинить проблеми лише в тому випадку, якщо ви збираєтеся вибірково розглянути позитивні результати, коли виключена нульова гіпотеза. Ось чому вчені пишуть оглядові статті, де вони розглядають раніше опубліковані результати досліджень та намагаються розвинути краще розуміння теми на основі цього. Однак тут все ще залишається проблема, що пов'язана з так званим "упередженням публікації", тобто вчені швидше пишуть статтю про позитивний результат, ніж про негативний результат, також документ про негативний результат більше шансів отримати відхилення для публікації, ніж документ про позитивний результат.

Особливо в галузях, де статистичні випробування дуже важливі, це буде великою проблемою, галузь медицини - горезвісний приклад. Ось чому було обов’язково реєструвати клінічні випробування ще до їх проведення (наприклад, тут ). Отже, ви повинні роз'яснити налаштування, як буде проводитись статистичний аналіз тощо тощо до початку судового розгляду. Провідні медичні журнали відмовляться публікувати документи, якщо випробування, про які вони повідомляють, там, де вони не були зареєстровані.

На жаль, незважаючи на цей захід, система працює не так добре .

— Граф Ібліс
джерело

можливо, це сприятиме розумінню p-значень: stats.stackexchange.com/questions/166323/…

3

Це близько до дуже важливого факту щодо наукового методу: він підкреслює фальсифікованість. Філософія науки, яка найбільш популярна сьогодні, має концепцію Карла Поппера про фальсифікованість як наріжний камінь.

Основний науковий процес, таким чином:

Будь-хто може заявити будь-яку теорію, яку хоче, у будь-який час. Наука визнає будь-яку теорію, яка "піддається фальсифікації". Найбільш буквальне значення цього слова полягає в тому, що, якщо комусь ще не подобається претензія, ця особа вільна витратити ресурси для спростування претензії. Якщо ви не думаєте, що аргілеві шкарпетки вилікують рак, ви можете скористатися власною медичною палатою, щоб спростувати це.
Оскільки ця планка для вступу є монументально низькою, традиційно "Наука" як культурна група насправді не розважатиме жодної ідеї, поки ви не докладете "гарних зусиль", щоб підробити власну теорію.
Прийняття ідей має тенденцію йти поетапно. Ви можете отримати свою концепцію в статті журналу з одним дослідженням і досить низьким значенням p. Що вас купує - це публічність і певна довіра. Якщо хтось зацікавлений у вашій ідеї, наприклад, якщо ваша наука має інженерні програми, вони можуть захотіти її використати. На той час вони швидше фінансують додатковий раунд фальсифікацій.
Цей процес йде вперед, завжди з однаковим ставленням: вірте, що хочете, але, щоб називати це наукою, мені потрібно мати можливість спростувати це пізніше.

Ця низька планка для вступу - це те, що дозволяє їй бути таким інноваційним. Так, так, існує велика кількість теоретично "неправильних" статей у журналі. Однак ключовим є те, що кожна опублікована стаття є теоретично фальсифікованою, тому в будь-який момент часу хтось може витратити гроші на тестування.

Це головне: журнали містять не лише речі, які проходять розумний p-тест, але також містять ключі, щоб інші його демонтували, якщо результати виявляються помилковими.

— Корт Аммон
джерело

1

Це дуже ідеалістично. Деякі люди стурбовані тим, що занадто багато неправильних статей може створити занадто низьке співвідношення сигнал-шум у літературі та серйозно уповільнити чи помилково керувати науковим процесом.

— амеба

1

@amoeba Ви дійсно підсумовуєте. Я, звичайно, хотів зафіксувати ідеальний випадок, тому що я вважаю, що він часто губиться в шумі. Крім того, я вважаю, що питання SNR в літературі є вагомим питанням, але принаймні це питання, яке повинно бути врівноваженим. Вже є концепції хороших журналів проти поганих журналів, тому є деякі натяки на те, що цей балансуючий акт триває вже деякий час.

— Корт Аммон

Схоже, це розуміння філософії науки застаріло на кілька десятиліть. Попперівська фальсифікованість є лише "популярною" в сенсі як загальний міський міф про те, як відбувається наука.

— EnergyNumbers

@EnergyNumbers Чи не могли б ви просвітити мене новим способом мислення? Філософія SE має зовсім іншу думку від вашої. Якщо ви подивитеся на історію питання там, Поппера фальсифицируемость є визначальною характеристикою науки для більшості тих , хто говорить голос. Я хотів би навчитися новим способом мислення та перенести його туди!

— Корт Аммон

Нові? Кун спростовував Поппера десятиліття тому. Якщо у вас немає жодної публікації попперіана на philoso.se, то оновлення, здавалося б, було втраченою причиною - просто залиште це у 1950-х. Якщо ви хочете оновити себе, тоді вам слід розпочати будь-який бакалаврат з 21-го століття з філософії науки.

— EnergyNumbers

1

Це так, як повинна працювати «наука»?

Ось так працює багато суспільних наук. Не стільки з фізичними науками. Подумайте над цим: ви набрали своє запитання на комп’ютері. Люди змогли побудувати цих складних звірів, які називали комп’ютерами, використовуючи знання фізики, хімії та інших галузей фізичних наук. Якби ситуація була такою поганою, як ви описуєте, жодна з електроніки не працювала б. Або подумай над такими речами, як маса електрона, яка відома з божевільною точністю. Вони проходять через мільярди логічних воріт у комп’ютері, і ваш комп'ютер все ще працює і працює роками.

ОНОВЛЕННЯ: Щоб відповісти на голоси, які я отримав, я надихнувся навести кілька прикладів.

Перший - з фізики: Бистрицький, В. М. та ін. " Вимірювання астрофізичних факторів S та перерізів реакції p (d, γ) 3He у наднизькій енергетичній області з використанням цілі дейтериду цирконію ". Фізика частинок і ядер літери 10.7 (2013): 717-722.

$0.237 \pm 0.061$

Наступний мій приклад - з ... психології: Паустіан-Андердал, Саманта С., Ліза Шолкер Уокер і Девід Дж. Вухер. " Стать та уявлення про ефективність лідерства: мета-аналіз контекстуальних модераторів ". Журнал прикладної психології, 2014, Вип. 99, № 6, 1129 –1145.

$\chi^2$

А тепер подивіться кілька таблиць з паперів і відгадайте, з яких паперів вони:

введіть тут опис зображення

Ось відповідь, чому в одному випадку вам потрібна "крута" статистика, а в іншому - ні, тому що дані або дурні, або ні. Коли у вас є хороші дані, вам не потрібно багато статистики, ніж стандартні помилки.

UPDATE2: @ PatrickS.Forscher зробив цікаву заяву в коментарі:

Правда також, що теорії суспільних наук "м'якші" (менш формальні), ніж теорії фізики.

Я повинен не погодитися. В економіці та фінансах теорії взагалі не "м'які". Ви можете випадковим чином шукати папір у цих полях і отримати щось подібне:

введіть тут опис зображення

і так далі.

Це від Шервіша, Марка Дж., Тедді Зейденфельда та Джозефа Б. Кадане. " Розширення очікуваної теорії корисності та деякі обмеження попарних порівнянь ." (2003). Це вам виглядає м’яко?

Я повторюю тут свою думку про те, що, коли ваші теорії не є добрими, а дані - шаленими, ви можете використовувати найскладнішу математику і все одно отримати шалений результат.

У цій статті вони говорять про комунальні послуги, таке поняття, як щастя та задоволення - абсолютно непомітне. Це як у чому користь мати будинок проти їсти чизбургер? Імовірно, є ця функція, де ви можете підключити "їсти чизбургер" або "жити у власному будинку", і ця функція виплюне відповідь у деяких підрозділах. Як не дивно це звучить, саме на цьому побудована сучасна екноміка, завдяки фон Нейману.

— Аксакал
джерело

1

+1 Не впевнений, чому це було знято двічі. Ви в основному вказуєте на те, що відкриття у фізиці можна перевірити експериментами, і більшість "відкриттів" в соціальних науках не може бути, що не зупиняє їх привертати увагу ЗМІ.

— Flounderer

6

Більшість експериментів, в кінцевому рахунку, передбачають певний статистичний тест, і все ще залишають місце для помилок типу 1 та недобросовісних поведінки, як риболовецьке значення. Я вважаю, що виділення соціальних наук трохи не помітно.

— Кенджі

4

Щоб трохи змінити те, що говорить @GuilhermeKenjiChihaya, стандартне відхилення помилок, імовірно, може бути використане для проведення статистичного тесту у фізичних експериментах. Імовірно, цей статистичний тест прийшов би до того ж висновку, до якого автори доходять, переглядаючи графік з його смужками помилок. Основна відмінність у фізичних роботах - це основна кількість шуму в експерименті, різниця, яка не залежить від логіка, що лежить в основі використання p-значень, є дійсною або недійсною.

— Патрік С. Форшер

3

Крім того, @Flounderer, ви, здається, використовуєте термін "експеримент" в тому сенсі, з яким я незнайомий, як соціологи роблять "експерименти" (тобто рандомізацію одиниць на умови) весь час. Це правда, що експерименти з суспільствознавства важко контролювати в тій же мірі, що і в експериментах з фізики. Правда також, що теорії суспільних наук "м'якші" (менш формальні), ніж теорії фізики. Але ці фактори не залежать від того, чи є дане дослідження «експериментом».

— Патрік С. Форшер

2

@Aksakal, хоча я не згоден з -1, я також частково не згоден з вашим критиком соціальних наук. Ваш приклад економічного документу також не є хорошим прикладом того, що соціальні вчені роблять щодня, тому що теорія корисності є суворо економічною / математичною / статистичною концепцією (тому вона вже має математику) і не нагадує, наприклад, психологічних теорій, перевіряються експериментально ... Однак я погоджуюся, що часто трапляється, що статистика використовується в багатьох галузях досліджень, включаючи суспільні науки.

— Тім