Чи справді розміри ефектів перевершують значення p?


14

Багато акцентів робиться на покладанні на розміри ефекту та звітності, а не на р-значеннях у прикладних дослідженнях (наприклад, цитати далі нижче).

Але чи не так, що розмір ефекту так само, як р-значення, є випадковою змінною і як такий може змінюватися від вибірки до вибірки, коли повторюється той же експеримент? Іншими словами, я запитую, які статистичні особливості (наприклад, розмір ефекту менш мінливий від вибірки до вибірки, ніж p-значення) роблять розміри ефекту кращими показниками вимірювання доказів, ніж значення p?

Однак я повинен зазначити важливий факт, який відокремлює значення p від розміру ефекту. Тобто, розмір ефекту - це щось, що слід оцінити, оскільки він має параметр сукупності, але значення p не може бути оцінене, оскільки не має жодного параметру сукупності.

Для мене розмір ефекту - це просто метрика, яка в певних областях дослідження (наприклад, дослідження людини) допомагає перетворити емпіричні висновки, що надходять від різних розроблених дослідником інструментів вимірювання, у загальну метрику (справедливо сказати, що використання цього метричного людського дослідження може краще підходити клуб з кількісних досліджень).

Може, якщо взяти просту пропорцію як розмір ефекту, наступне (в R) те, що показує перевагу розмірів ефекту над р-значеннями? (p-значення змінюється, але розмір ефекту не відповідає)

binom.test(55, 100, .5)  ## p-value = 0.3682  ## proportion of success 55% 

binom.test(550, 1000, .5) ## p-value = 0.001731 ## proportion of success 55%

Зауважте, що більшість розмірів ефекту лінійно пов'язані зі статистикою тесту. Таким чином, це легкий крок зробити тестування гіпотез на нуль, використовуючи розміри ефектів.

Наприклад, t-статистику, отриману в результаті перед-після публікації, можна легко перетворити на відповідний розмір ефекту Коена. Таким чином, розповсюдження d Коена є просто місцем масштабу варіантом при розподілі.

Цитати:

Оскільки р-значення є заплутаними показниками, теоретично 100 досліджень з різними розмірами вибірки та 100 різних розмірів ефекту можуть мати одне і те ж одне p-значення, і 100 досліджень з однаковим розміром одного ефекту можуть мати 100 різних значень для p-значення .

або

p-значення - випадкова величина, яка змінюється від вибірки до вибірки. . . . Отже, не доцільно порівнювати значення р з двох різних експериментів або з тестів на двох змінних, виміряних в одному експерименті, і заявляти, що одна є більш значною, ніж інша?

Цитати:

Томпсон, Б. (2006). Основи поведінкової статистики: підхід, заснований на розумінні. Нью-Йорк, Нью-Йорк: Гілфорд Прес.

Добре, PI, і Hardin, JW (2003). Поширені помилки в статистиці (і як їх уникнути). Нью-Йорк: Вілі.


12
Я не роблю однакових висновків із цитат (ці розміри ефектів є «вищими» або повинні повідомлятися замість p-значень). Мені відомо, що деякі люди зреагували на такі заяви (наприклад, заборона BASP на p-значеннях). Це не одна чи інша ситуація: це справа про те, що р-значення та розміри ефектів дають різні види корисної інформації. Зазвичай одне не слід розглядати, не розглядаючи його в контексті іншого.
whuber

1
Особисто я вважаю, що виставлення оцінок разом із довірчим інтервалом достатньо. Це дає одночасно розмір ефекту (практичне значення) та тестування гіпотез (статистичне значення).
Jirapat Samranvedhya

1
Чи "p" значення чи розміри ефекту "вище", залежить від вашої точки зору. Перший випливає з традиції рибальського НХСТ, а другий - з традиції Неймана-Пірсона. У деяких галузях (біологічні науки, гуманітарні науки) розміри ефектів, як правило, дуже малі, що робить p значення привабливими. І навпаки, як зазначають інші, значення p можна «примусити» меншими завдяки змінам конструкції, як, наприклад, збільшена Н.
HEITZ

3
Чи викрутка перевершує молоток?
kjetil b halvorsen

Чи гайка перевершує болт?
Секст

Відповіді:


21

Порада щодо розміру ефекту, а не P-значень, ґрунтується на хибній дихотомії та нерозумна. Чому б не представити обох?

Наукові висновки повинні базуватися на раціональній оцінці наявних доказів та теорії. P-значень та розмірів спостережуваного ефекту самостійно або разом недостатньо.

Жоден із цитованих уривків, які ви надаєте, не є корисним. Звичайно значення Р змінюються від експерименту до експерименту, сила доказів у даних змінюється від експерименту до експерименту. Значення P - це лише числове вилучення цих доказів за допомогою статистичної моделі. З огляду на характер Р-значення, дуже рідко доцільно в аналітичних цілях порівнювати одне значення Р з іншим, тому, можливо, саме це намагається передати автор цитати.

Якщо ви хочете порівняти значення P, то, ймовірно, вам слід було б провести перевірку значимості на іншому розташуванні даних, щоб чітко відповісти на питання, що цікавить. Дивіться наступні запитання: p-значення для p-значень? і Якщо середня величина однієї групи відрізняється від нуля, а інша ні, чи можна зробити висновок, що групи різні?

Отже, відповідь на ваше запитання є складною. Я не вважаю, що дихотомічні відповіді на дані на основі P-значень чи розмірів ефекту є корисними, тож чи розміри ефектів перевищують значення P? Так, ні, інколи, можливо, і це залежить від вашого призначення.


Я думаю, що було б краще представити розмір ефекту та його довірчий інтервал, за умови, що аналітик може правильно вказати, який значимий розмір ефекту для даного дослідження. Інтервал довіри, на відміну від p-значення, дає читачеві відчуття як точності оцінки, так і її кінцівки.
AdamO

1
@AdamO Так, я багато в чому погоджуюся, але значення P має дві речі, які не можна опускати. Це показник міцності доказів проти нуля, те, що може бути отримане лише з довірчого інтервалу дуже досвідченим оком, і точне P-значення безпосередньо не запрошує дихотомію всередині / зовні, що довірчий інтервал . Звичайно, функція вірогідності пропонує переваги перед обома.
Майкл Лев

14

У контексті прикладних досліджень необхідні розміри ефектів, щоб читачі могли інтерпретувати практичну значущість (на відміну від статистичної значущості) висновків. Загалом, р-значення набагато більш чутливі до розміру вибірки, ніж розміри ефекту. Якщо експеримент точно вимірює розмір ефекту (тобто він достатньо близький до параметра сукупності, який він оцінює), але дає несуттєве значення p, тоді, при всіх рівних обсягах, збільшення розміру вибірки призведе до того ж розміру ефекту, але нижнє р-значення. Це можна продемонструвати за допомогою аналізу потужностей або моделювання.

З огляду на це, можна досягти дуже значущих p-значень для розмірів ефекту, які не мають практичного значення. На відміну від цього, досліджувані конструкції з малою потужністю можуть давати незначні значення p для розмірів ефектів, що мають велике практичне значення.

Важко обговорити поняття статистичної значущості щодо розміру ефекту без конкретного додатка в реальному світі. Як приклад, розглянемо експеримент, який оцінює вплив нового методу вивчення на середній бал студентів (GPA). Я заперечую, що розмір ефекту 0,01 балів має мало практичне значення (тобто 2,50 порівняно з 2,51). Якщо припустити розмір вибірки 2000 студентів як у групах лікування, так і в контрольній, та стандартне відхилення населення в 0,5 бала:

set.seed(12345)
control.data <- rnorm(n=2000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=2000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE) 

Середня проба лікування = 2,51

середнє значення контрольного зразка = 2,50

розмір ефекту = 2,51 - 2,50 = 0,01

р = 0,53

Збільшення обсягу вибірки до 20 000 учнів та постійне утримання всього іншого дає значне p-значення:

set.seed(12345)
control.data <- rnorm(n=20000, mean = 2.5, sd = 0.5)
set.seed(12345)
treatment.data <- rnorm(n=20000, mean = 2.51, sd = 0.5)
t.test(x = control.data, y = treatment.data, alternative = "two.sided", var.equal = TRUE)  

Середня проба лікування = 2,51

середнє значення контрольного зразка = 2,50

розмір ефекту = 2,51 - 2,50 = 0,01

р = 0,044

Очевидно, що збільшити розмір вибірки на порядок не очевидно, це не банальна річ! Однак я думаю, що всі ми можемо погодитися, що практичне вдосконалення, пропоноване цим методом дослідження, є незначним. Якщо ми покладалися виключно на p-значення, то ми можемо вірити інакше у випадку n = 20000.

Особисто я виступаю за повідомлення про р-значення та розміри ефектів. І бонусні бали за t- або F-статистику, ступінь свободи та діагностику моделі!


2
Даррен, покажи, будь ласка, що ти точно маєш на увазі на R або щось подібне до PO.
user138773

7
@Darrent James Немає практичної важливості в різниці між p = 0,065 і p = 0,043 поза сумним припущенням, що p = 0,05 - це яскрава лінія, яку слід дотримуватися. Ні P-значення не є переконливим доказом за чи проти чогось само собою.
Майкл Лев

@Michael Lew Так, я згоден!
Даррен Джеймс

1
Джеймс, враховуючи ваш код та пояснення, ви, здається, повністю зрозуміли точку ОП. Ваш R код також неправильний! Тому що ви не встановили NOt, var.equal = TRUEпоки ваші sds дорівнюють. З таким досвідом я не впевнений, чому ви навіть опублікували подібну відповідь. ОП задає питання, на яке не існує простої відповіді хоча б в даний час!
user138773

1
До коду я додав var.equal = TRUE. Але в цьому випадку це зайве. Отримані однакові значення p отримуються як для var.equal = TRUE, так і за замовчуванням var.equal = FALSE.
Даррен Джеймс

5

Зараз я працюю у галузі науки про дані, а до цього працював у дослідженні освіти. Хоча на кожній «кар’єрі» я співпрацював з людьми, які не виходили з офіційного досвіду статистики, і де акцент статистичного (і практичного) значення сильно робиться на p-значення . Я навчився включати та підкреслювати розміри ефектів у своїх аналізах, оскільки існує різниця між статистичною значимістю та практичною значимістю.

Як правило, люди, з якими я працював, піклувалися про одне - "чи робить наша програма / функція та впливає, так чи ні?". На таке питання можна зробити щось таке просто, як t-тест, і повідомити їм "так, ваша програма / функція має значення". Але наскільки велика чи мала ця "різниця"?

По-перше, перш ніж почати заглиблюватися в цю тему, я хотів би підсумувати те, про що ми говоримо, коли говорити про розміри ефектів

Розмір ефекту - це просто спосіб кількісної оцінки розміру різниці між двома групами. [...] Це особливо цінно для кількісної оцінки ефективності конкретного втручання відносно деякого порівняння. Це дозволяє нам вийти за рамки спрощеного: "Це працює чи ні?" до набагато складнішого: "Наскільки добре це працює в різних контекстах?" Більше того, роблячи акцент на найважливішому аспекті втручання - розмірі ефекту - а не на його статистичній значущості (яка співвідносить розмір ефекту та розмір вибірки), це сприяє більш науковому підходу до накопичення знань. З цих причин розмір ефекту є важливим інструментом звітування та інтерпретації ефективності.

Це розмір ефекту, тупий: який розмір ефекту і чому він важливий

Далі, що таке p-значення та яку інформацію вона нам надає? Що ж, значення p , якомога менше слів, - це ймовірність того, що спостерігається відмінність від нульового розподілу є чистою випадковістю. Тому ми відкидаємо (або не приймаємо) нульову гіпотезу, коли це р-значення менше порогу (α).

Чому не вистачає значення P?

Статистична значимість - це ймовірність того, що спостерігається різниця між двома групами зумовлена ​​випадковістю. Якщо значення P більше, ніж вибраний рівень альфа (наприклад, .05), будь-яка спостерігається різниця вважається поясненою варіабельністю вибірки. При досить великій вибірці статистичний тест майже завжди демонструє значну різницю, якщо тільки не буде ефекту, тобто коли розмір ефекту точно дорівнює нулю; але дуже малі відмінності, навіть якщо значні, часто бувають безглуздими. Таким чином, звітність лише про важливе значення для аналізу не є адекватним для того, щоб читачі могли повністю зрозуміти результати.

І щоб підтвердити коментарі @ DarrenJames щодо великих розмірів вибірки

Наприклад, якщо розмір вибірки становить 10 000, значне значення Р, ймовірно, виявиться навіть тоді, коли різниця в результатах між групами незначна і може не виправдати дорогого або трудомісткого втручання над іншою. Рівень значущості сам по собі не прогнозує розмір ефекту. На відміну від значущих тестів, розмір ефекту не залежить від розміру вибірки. З іншого боку, статистична значимість залежить як від розміру вибірки, так і від розміру ефекту. З цієї причини значення P вважаються збентеженими через їх залежність від розміру вибірки. Іноді статистично значимий результат означає лише те, що було використано величезний розмір вибірки. [Існує помилкова думка, що така поведінка є упередженням проти нульової гіпотези.Чому тестування частої гіпотези стає упередженим щодо відкидання нульової гіпотези достатньо великими зразками? ]

Використання розміру ефекту - або Чому значення P недостатньо

Звіт як про величину P, так і на ефект

Тепер, щоб відповісти на питання, чи розміри ефектів перевершують значення p ? Я заперечую, що вони є важливими компонентами статистичного аналізу, які не можна порівняти в таких термінах, і їх слід повідомляти разом. Значення р - це статистика, яка вказує на статистичну значущість (відмінність від нульового розподілу), де розмір ефекту містить слова, скільки різниці існує.

В якості прикладу, скажімо , вашу голову, Боб, яка не дуже STATs люди зацікавлений в тому, чи існує значуща зв'язок між вагою (вага) і милями на галон (милі на галон). Ви починаєте аналіз з гіпотез

Н0:βмpг=0 проти НА:βмpг0

тестується в α=0,05

> data("mtcars")
> 
> fit = lm(formula = mpg ~ wt, data = mtcars)
> 
> summary(fit)

Call:
lm(formula = mpg ~ wt, data = mtcars)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.5432 -2.3647 -0.1252  1.4096  6.8727 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  37.2851     1.8776  19.858  < 2e-16 ***
wt           -5.3445     0.5591  -9.559 1.29e-10 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.046 on 30 degrees of freedom
Multiple R-squared:  0.7528,    Adjusted R-squared:  0.7446 
F-statistic: 91.38 on 1 and 30 DF,  p-value: 1.294e-10

З summaryвисновку ми бачимо, що у нас є t-статистика з дуже малим р-значенням . Ми можемо зручно відкинути нульову гіпотезу і повідомити про цеβмpг0. Однак твій начальник запитує, ну як це відрізняється? Ви можете сказати , Боб, «добре, це виглядає як є негативна лінійна залежність між миль на галон і вага . Крім того , можна резюмувати , що для кожного блоку збільшеною в вагу є зменшення 5.3445 в милях на галон »

Таким чином, ви змогли зробити висновок, що результати були статистично значущими, і донести їх значення в практичному плані.

Я сподіваюся, що це було корисно у відповіді на ваше запитання.


Джон, спасибі, є багато сірих ділянок, про які я сподівався почути більше, але я цього не зробив. У багатьох ситуаціях розміри ефекту та значення p не узгоджуються. Багато розмірів ефекту довіри в таких ситуаціях, які я хотів знати, чому. Я сподівався почути більше про симуляції, які можуть показати важливі моменти. Що стосується матерії, яку ви вирішили, тобто розмір ефекту може бути крихітним, але не точно нульовим; методи тестування на еквівалентність існують уже кілька років. Мені ще більше подобається баєсівське тестування на еквівалентність. У всякому разі, я, певно, не ставив свого питання досить чітко. - Спасибі
rnorouzian

BTW, колега прокоментував, що код R Дарена неправильний, здається, він прав. Він не поставив var.equal = TRUE.
rnorouzian

* У багатьох ситуаціях розміри ефекту та значення p не погоджуються. * - чи можете ви надати більше інформації щодо цього? Приклад? Що стосується матеріалу, який ви вирішили, тобто розмір ефекту може бути крихітним, але не точно нульовим - така ситуація може призвести до великого розміру вибірки. Таким чином, якщо розмір ефекту майже дорівнює нулю, то змінна, що представляє інтерес, може не вплинути істотно на результат, або взаємозв'язок може бути вказаний неправильно (наприклад, лінійна проти нелінійна).
Джон

Просто спробуйте цей інструмент . Дивіться також цей документ . Здається, мені потрібно буде подати інше запитання пізніше, використовуючи якийсь код для наочності. -- Дякую.
rnorouzian

@rnorouzian, добре, я запустив ваш код. Який твій погляд?
Джон

4

Корисність розмірів ефектів відносно p-значень (як і інших показників статистичного висновку) в моїй галузі - психології - звично обговорюється, і дебати наразі «гарячіші», ніж звичайні, з причин, що стосуються вашого питання. І хоча я впевнений, що психологія не обов'язково є найбільш статистично найскладнішою науковою галуззю, вона з легкістю обговорювала, вивчала - а часом і демонструвала - обмеження різних підходів до статистичних висновків або, принаймні, як вони обмежені людським використанням. Опубліковані відповіді містять добру інформацію, але якщо ви зацікавлені в більш широкому переліку (та посиланнях) причин за та проти кожного, дивіться нижче.

Чому р-значення небажані?

  • Як зазначає Даррен Джеймс (і показує його моделювання), значення p значною мірою залежать від кількості спостережень (див. Кірк, 2003)
  • Як зазначає Джон, р-значення представляють умовну ймовірність спостереження за даними як крайні або більш крайні, враховуючи, що нульова гіпотеза є істинною. Оскільки більшість дослідників, швидше за все, мають ймовірність гіпотези дослідження та / або нульової гіпотези, p-значення не говорять про ймовірності, в яких найбільше зацікавлені дослідники (тобто, нульова або дослідницька гіпотеза, див. Dienes, 2008)
  • Багато людей, які використовують значення p, не розуміють, що вони означають / не означають (Schmidt & Hunter, 1997). Посилання Майкла Лева на документ Гельмана та Стерна (2006) ще більше підкреслює непорозуміння дослідника щодо того, що можна (чи не можна) інтерпретувати з p-значень. І як демонструє відносно недавня історія на FiveThirtyEight , це продовжує так.
  • p-значення не великі при прогнозуванні наступних p-значень (Cumming, 2008)
  • p-значення часто неправильно повідомляються (частіше завищують значення), а неправильний звіт пов'язаний з небажанням ділитися даними (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
  • p-значення можуть бути (і історично склалися) активно спотворюються через аналітичну гнучкість, а тому є недостовірними (John et al., 2012; Simmons et al., 2011)
  • p-значення непропорційно значущі, оскільки, схоже, академічні системи винагороджують науковців за статистичну значимість за наукову точність (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)

Чому бажані розміри ефектів?

Зауважте, що я трактую ваше запитання як специфічне посилання на стандартизовані розміри ефектів, оскільки, як ви говорите, вони дозволяють дослідникам трансформувати свої висновки "В загальну метрику".

  • Як вказують Джон та Даррен Джеймс, розміри ефектів вказують на величину ефекту, незалежну від кількості спостережень (American Psychological Association 2010; Cumming, 2014) на відміну від прийняття дихотомічних рішень, чи є ефект чи ні.
  • Розміри ефектів є цінними, оскільки вони роблять можливим метааналіз, а мета-аналіз стимулює накопичувальні знання (Borenstein et al., 2009; Chan & Arvey, 2012)
  • Розміри ефектів допомагають полегшити планування розміру вибірки за допомогою апріорного аналізу потужності , а отже, ефективного розподілу ресурсів у дослідженнях (Cohen, 1992)

Чому р-значення бажані?

Хоча їх рідше застосовують, значення р має ряд переваг. Деякі відомі і давні, тоді як інші відносно нові.

  • Значення P забезпечують зручний та знайомий показник міцності доказів проти статистичної моделі нульової гіпотези.

  • При правильному обчисленні p-значення забезпечують спосіб прийняття дихотомічних рішень (які іноді необхідні), а p-значення допомагають підтримувати довгострокові помилково-позитивні показники помилок на прийнятному рівні (Dienes, 2008; Sakaluk, 2016) [It не зовсім коректно стверджувати, що P-значення необхідні для дихотомічних рішень. Вони справді широко використовуються таким чином, але Нейман і Пірсон використовували для цього «критичні регіони» у тестовому просторі. Дивіться це питання та його відповіді]

  • p-значення можуть бути використані для полегшення безперервного ефективного планування розміру вибірки (не лише одноразовий аналіз потужності) (Lakens, 2014)
  • p-значення можуть бути використані для полегшення мета-аналізу та оцінки доказової цінності (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Дивіться цей поштовий блог, щоб отримати доступну дискусію про те, як можна розподілити р-значення таким чином, а також цей резюме для відповідного обговорення.
  • p-значення можуть бути використані криміналістично для визначення того, чи можуть бути використані сумнівні дослідницькі практики та як можуть бути повторювані результати (Schimmack, 2014; також див. додаток Schönbrodt, 2015)

Чому розміри ефекту небажані (або завищені)?

Мабуть, найбільш контр-інтуїтивна позиція для багатьох; Чому звітність про стандартизовані розміри ефекту буде небажаною або, принаймні, завищеною?

  • У деяких випадках стандартизовані розміри ефектів - це не все, на що вони розбиваються (наприклад, Гренландія, Шлессельман, Крікі, 1986). Baguely (2009), зокрема, добре описує деякі причини, через які розміри сирого / нестандартного ефекту можуть бути більш бажаними.
  • Незважаючи на їх корисність для апріорного аналізу потужності, розміри ефектів фактично не використовуються надійно для полегшення ефективного планування розмірів вибірки (Maxwell, 2004)
  • Навіть коли розміри ефектів використовуються при плануванні розміру вибірки, оскільки вони завищені через зміщення публікацій (Rosenthal, 1979) розміри ефектів, що опубліковані, є сумнівною корисністю для надійного планування розміру вибірки (Simonsohn, 2013)
  • Оцінки розміру ефекту можуть бути (і були) - систематично прорахувались у статистичному програмному забезпеченні (Levine & Hullet, 2002)
  • Розміри ефектів помилково витягуються (і, ймовірно, неправильно повідомляються), що підриває вірогідність метааналізів (Gøtzsche et al., 2007)
  • Нарешті, виправлення зміщення публікацій у розмірах ефектів залишається неефективним (див. Carter et al., 2017), що, якщо ви вважаєте, що упередженість публікації існує, робить метааналізи менш ефективними.

Підсумок

Наголос Майкла Лева, p-значення та розміри ефектів - це лише два фрагменти статистичних даних; Є й інші, які варто також розглянути. Але, як і р-значення та розміри ефектів, інші показники доказової цінності також мають спільні та унікальні проблеми. Наприклад, дослідники неправильно застосовують та неправильно трактують довірчі інтервали (наприклад, Hoekstra et al., 2014; Morey et al., 2016), і результат байєсівських аналізів може спотворити дослідників, як і при використанні p-значень (наприклад, Сімонсон , 2014).

Усі показники доказів виграли, і всі повинні мати призи.

Список літератури

Американська психологічна асоціація. (2010). Публікаційний посібник Американської психологічної асоціації (6-е видання). Вашингтон, округ Колумбія: Американська психологічна асоціація.

Багулей, Т. (2009). Стандартизований або простий розмір ефекту: про що слід повідомити ?. Британський журнал психології, 100 (3), 603-617.

Bakker, M., & Wicherts, JM (2011). (Помилкова) звітність про статистичні результати у журналах психології. Методи дослідження поведінки, 43 (3), 666-678.

Боренштейн, М., Хеджес, Л. В., Хіггінс, Дж. Та Ротштайн, HR (2009). Вступ до мета-аналізу. Західний Сассекс, Великобританія: John Wiley & Sons, Ltd.

Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 серпня). Виправлення зміщення в психології: Порівняння метааналітичних методів. Отримано з osf.io/preprints/psyarxiv/9h3nu

Chan, ME, & Arvey, RD (2012). Метааналіз та розвиток знань. Перспективи психологічної науки, 7 (1), 79-92.

Коен Дж. (1992). Силова грунтовка. Психологічний вісник, 112 (1), 155-159. 

Куммінг, Г. (2008). Реплікація та p інтервали: значення p передбачають майбутнє лише невиразно, але довірчі інтервали роблять набагато краще. Перспективи психологічної науки, 3, 286– 300.

Дієнес, Д. (2008). Розуміння психології як науки: вступ до наукових та статистичних висновків. Нью-Йорк, Нью-Йорк: Palgrave MacMillan.

Фанеллі, Д. (2010). "Позитивні" результати збільшують ієрархію наук. PloS one, 5 (4), e10068.

Гельман, А., Стерн, Х. (2006). Різниця між "значущим" та "несуттєвим" сама по собі не є статистично значимою. Американський статистик, 60 (4), 328-331.

Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Помилки вилучення даних у метааналізах, які використовують стандартизовані середні відмінності. JAMA, 298 (4), 430-437.

Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Помилковість використання стандартизованих коефіцієнтів регресії та кореляцій як міри ефекту. Американський журнал епідеміології, 123 (2), 203-208.

Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Надійна помилкова інтерпретація довірчих інтервалів. Психономічний вісник та огляд, 21 (5), 1157-1164.

John, LK, Loewenstein, G., & Prelec, D. (2012). Вимірювання поширеності сумнівної дослідницької практики із заохоченням до правди. Психологічна наука, 23 (5), 524-532.

Кірк, РЕ (2003). Важливість величини ефекту. У С. Ф. Девіса (Ред.), Довідник методів дослідження в експериментальній психології (с. 83–105). Мальден, Массачусетс: Блеквелл.

Лакенс, Д. (2014). Ефективне проведення потужних досліджень за допомогою послідовних аналізів. Європейський журнал соціальної психології, 44 (7), 701-710.

Levine, TR, & Hullett, CR (2002). Ета у квадраті, частковому етапі у квадраті та неправильному звіті про розмір ефекту в комунікаційних дослідженнях. Дослідження людських комунікацій, 28 (4), 612-625.

Максвелл, SE (2004). Наполегливість недостатньо розвинених досліджень у психологічних дослідженнях: причини, наслідки та засоби усунення. Психологічні методи, 9 (2), 147.

Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). Помилковість довіри до довірчих інтервалів. Психономічний вісник та огляд, 23 (1), 103-123.

Носек, Б.А., Шпигуни, Ю.Р., і Мотиль, М. (2012). Наукова утопія: II. Реструктуризація стимулів та практик для просування правди щодо публічності. Перспективи психологічної науки, 7 (6), 615-631.

Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, ​​S., & Wicherts, JM (2016). Поширеність помилок статистичної звітності в психології (1985–2013). Методи дослідження поведінки, 48 (4), 1205-1226.

Розенталь, Р. (1979). Проблема з ящиком файлів та толерантність до нульових результатів. Психологічний вісник, 86 (3), 638-641.

Сакалук, ЖК (2016). Дослідження малого, що підтверджує велике: Альтернативна система нової статистики для просунення кумулятивних та повторюваних психологічних досліджень. Журнал експериментальної соціальної психології, 66, 47-54.

Шиммак, США (2014). Кількісне визначення цілісності статистичних досліджень: індекс репликабельності. Отримано з http://www.r-index.org 

Schmidt, FL, & Hunter, JE (1997). Вісім поширених, але помилкових заперечень щодо припинення тестування значимості при аналізі даних досліджень. У LL Harlow, SA Mulaik та JH Steiger (ред.), Що робити, якщо не було тестів на значущість? (с. 37–64). Mahwah, NJ: Ерльбаум.

Schönbrodt, FD (2015). p-checker: Аналізатор значення одного для всіх. Отримано з http://shinyapps.org/apps/p-checker/

Сіммонс, JP, Нельсон, LD та Сімонсон, США. (2011). Хибнопозитивна психологія: нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити що-небудь як важливе. Психологічна наука, 22 (11), 1359-1366.

Сімонсон, США (2013). Нерозумність живлення реплік на основі спостережуваного розміру ефекту. Отримано з http://datacolada.org/4

Сімонсон, США (2014). Задній-хакерський. Отримано з http://datacolada.org/13 .

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-крива: ключ до ящика файлів. Журнал експериментальної психології: Загальне, 143 (2), 534-547.

Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-крива та розмір ефекту: виправлення зміщення публікацій, використовуючи лише значні результати. Перспективи психологічної науки, 9 (6), 666-681.

Wicherts, JM, Bakker, M., & Molenaar, D. (2011). Готовність ділитися даними досліджень пов'язана з міцністю доказів та якістю звітування статистичних результатів. PloS one, 6 (11), e26828.


2
Дуже приємна колекція ідей та посилань. Це має бути корисним для тих, хто хоче копати трохи далі, але зауважте, що багато пунктів мають відповідні запитання та відповіді на цьому сайті. Посилання на них теж допоможуть.
Майкл Лев

@MichaelLew Дякую Я побачу, як додати кілька посилань, коли в мене з’явиться час пізніше - мені знадобилася більша частина дня, щоб скласти цю відповідь та зібрати посилання. Щодо вашої редакції, я вважаю, що ваша думка сприйнята добре, але, можливо, більше доповнення, на відміну від виправлення? Я сказав , р-значення забезпечують засоби прийняття рішень дихотомічних (Не те, що вони «необхідні», або єдиним способом зробити це). Я погоджуюся, що критичні райони щодо NP - це інший спосіб, але я відповів на ОП в контексті того, що дозволяють отримати р-значення порівняно зі стандартизованими розмірами ефектів.
jsakaluk

1
jsakaluk, так, я можу бачити, що ви б довго витратили на відповідь, і це дуже корисно і гідно ваших зусиль. Я редагував пункт про переваги P-значень, тому що ви написали "При правильному використанні", вони можуть бути дихотомізовані, тоді як реальність полягає в тому, що таке використання ігнорує велику частину інформації, кодованої в P-значенні, і так, безсумнівно, (і на мою думку) неправильне використання. Я не хотів підривати ваш намір, і тому змінив "звичний" на "обчислений".
Майкл Лев

3

З точки зору епідеміолога, чому я віддаю перевагу розмірам ефекту над р-значеннями (хоча, як зазначають деякі люди, це щось помилкове дихотомія):

  1. Розмір ефекту підказує мені те, що я насправді хочу, p-значення просто підказує мені, якщо воно відрізняється від null. Відносний ризик 1.0001, 1,5, 5 та 50 може мати однакову p-величину, пов'язану з ними, але означає значно різні речі з точки зору того, що нам може знадобитися робити на рівні населення.
  2. Спираючись на значення p, посилює уявлення про те, що тестування гіпотез на основі значущості - це все-таки доказ. Розглянемо наступні два твердження: "Лікарі, які посміхаються пацієнтам, не були суттєво пов'язані з несприятливим результатом під час перебування в лікарні". порівняно з "Пацієнти, які посміхалися до лікаря, на 50% менше шансів мати несприятливий результат (p = 0,086)." Чи все-таки, можливо, враховуючи, що це абсолютно не коштує, подумайте про те, щоб запропонувати лікарям посміхнутися своїм пацієнтам?
  3. Я працюю з безліччю стохастичних моделюючих моделей, де розмір вибірки є функцією обчислювальної потужності та терпіння, а значення р по суті безглузді. Мені вдалося отримати p <0,05 результатів для речей, які не мають абсолютно ніякого клінічного чи суспільного значення.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.