Корисність розмірів ефектів відносно p-значень (як і інших показників статистичного висновку) в моїй галузі - психології - звично обговорюється, і дебати наразі «гарячіші», ніж звичайні, з причин, що стосуються вашого питання. І хоча я впевнений, що психологія не обов'язково є найбільш статистично найскладнішою науковою галуззю, вона з легкістю обговорювала, вивчала - а часом і демонструвала - обмеження різних підходів до статистичних висновків або, принаймні, як вони обмежені людським використанням. Опубліковані відповіді містять добру інформацію, але якщо ви зацікавлені в більш широкому переліку (та посиланнях) причин за та проти кожного, дивіться нижче.
Чому р-значення небажані?
- Як зазначає Даррен Джеймс (і показує його моделювання), значення p значною мірою залежать від кількості спостережень (див. Кірк, 2003)
- Як зазначає Джон, р-значення представляють умовну ймовірність спостереження за даними як крайні або більш крайні, враховуючи, що нульова гіпотеза є істинною. Оскільки більшість дослідників, швидше за все, мають ймовірність гіпотези дослідження та / або нульової гіпотези, p-значення не говорять про ймовірності, в яких найбільше зацікавлені дослідники (тобто, нульова або дослідницька гіпотеза, див. Dienes, 2008)
- Багато людей, які використовують значення p, не розуміють, що вони означають / не означають (Schmidt & Hunter, 1997). Посилання Майкла Лева на документ Гельмана та Стерна (2006) ще більше підкреслює непорозуміння дослідника щодо того, що можна (чи не можна) інтерпретувати з p-значень. І як демонструє відносно недавня історія на FiveThirtyEight , це продовжує так.
- p-значення не великі при прогнозуванні наступних p-значень (Cumming, 2008)
- p-значення часто неправильно повідомляються (частіше завищують значення), а неправильний звіт пов'язаний з небажанням ділитися даними (Bakker & Wicherts, 2011; Nuijten et al., 2016; Wicherts et al., 2011)
- p-значення можуть бути (і історично склалися) активно спотворюються через аналітичну гнучкість, а тому є недостовірними (John et al., 2012; Simmons et al., 2011)
- p-значення непропорційно значущі, оскільки, схоже, академічні системи винагороджують науковців за статистичну значимість за наукову точність (Fanelli, 2010; Nosek et al., 2012; Rosenthal, 1979)
Чому бажані розміри ефектів?
Зауважте, що я трактую ваше запитання як специфічне посилання на стандартизовані розміри ефектів, оскільки, як ви говорите, вони дозволяють дослідникам трансформувати свої висновки "В загальну метрику".
- Як вказують Джон та Даррен Джеймс, розміри ефектів вказують на величину ефекту, незалежну від кількості спостережень (American Psychological Association 2010; Cumming, 2014) на відміну від прийняття дихотомічних рішень, чи є ефект чи ні.
- Розміри ефектів є цінними, оскільки вони роблять можливим метааналіз, а мета-аналіз стимулює накопичувальні знання (Borenstein et al., 2009; Chan & Arvey, 2012)
- Розміри ефектів допомагають полегшити планування розміру вибірки за допомогою апріорного аналізу потужності , а отже, ефективного розподілу ресурсів у дослідженнях (Cohen, 1992)
Чому р-значення бажані?
Хоча їх рідше застосовують, значення р має ряд переваг. Деякі відомі і давні, тоді як інші відносно нові.
Значення P забезпечують зручний та знайомий показник міцності доказів проти статистичної моделі нульової гіпотези.
При правильному обчисленні p-значення забезпечують спосіб прийняття дихотомічних рішень (які іноді необхідні), а p-значення допомагають підтримувати довгострокові помилково-позитивні показники помилок на прийнятному рівні (Dienes, 2008; Sakaluk, 2016) [It не зовсім коректно стверджувати, що P-значення необхідні для дихотомічних рішень. Вони справді широко використовуються таким чином, але Нейман і Пірсон використовували для цього «критичні регіони» у тестовому просторі. Дивіться це питання та його відповіді]
- p-значення можуть бути використані для полегшення безперервного ефективного планування розміру вибірки (не лише одноразовий аналіз потужності) (Lakens, 2014)
- p-значення можуть бути використані для полегшення мета-аналізу та оцінки доказової цінності (Simonsohn et al., 2014a; Simonsohn et al., 2014b). Дивіться цей поштовий блог, щоб отримати доступну дискусію про те, як можна розподілити р-значення таким чином, а також цей резюме для відповідного обговорення.
- p-значення можуть бути використані криміналістично для визначення того, чи можуть бути використані сумнівні дослідницькі практики та як можуть бути повторювані результати (Schimmack, 2014; також див. додаток Schönbrodt, 2015)
Чому розміри ефекту небажані (або завищені)?
Мабуть, найбільш контр-інтуїтивна позиція для багатьох; Чому звітність про стандартизовані розміри ефекту буде небажаною або, принаймні, завищеною?
- У деяких випадках стандартизовані розміри ефектів - це не все, на що вони розбиваються (наприклад, Гренландія, Шлессельман, Крікі, 1986). Baguely (2009), зокрема, добре описує деякі причини, через які розміри сирого / нестандартного ефекту можуть бути більш бажаними.
- Незважаючи на їх корисність для апріорного аналізу потужності, розміри ефектів фактично не використовуються надійно для полегшення ефективного планування розмірів вибірки (Maxwell, 2004)
- Навіть коли розміри ефектів використовуються при плануванні розміру вибірки, оскільки вони завищені через зміщення публікацій (Rosenthal, 1979) розміри ефектів, що опубліковані, є сумнівною корисністю для надійного планування розміру вибірки (Simonsohn, 2013)
- Оцінки розміру ефекту можуть бути (і були) - систематично прорахувались у статистичному програмному забезпеченні (Levine & Hullet, 2002)
- Розміри ефектів помилково витягуються (і, ймовірно, неправильно повідомляються), що підриває вірогідність метааналізів (Gøtzsche et al., 2007)
- Нарешті, виправлення зміщення публікацій у розмірах ефектів залишається неефективним (див. Carter et al., 2017), що, якщо ви вважаєте, що упередженість публікації існує, робить метааналізи менш ефективними.
Підсумок
Наголос Майкла Лева, p-значення та розміри ефектів - це лише два фрагменти статистичних даних; Є й інші, які варто також розглянути. Але, як і р-значення та розміри ефектів, інші показники доказової цінності також мають спільні та унікальні проблеми. Наприклад, дослідники неправильно застосовують та неправильно трактують довірчі інтервали (наприклад, Hoekstra et al., 2014; Morey et al., 2016), і результат байєсівських аналізів може спотворити дослідників, як і при використанні p-значень (наприклад, Сімонсон , 2014).
Усі показники доказів виграли, і всі повинні мати призи.
Список літератури
Американська психологічна асоціація. (2010). Публікаційний посібник Американської психологічної асоціації (6-е видання). Вашингтон, округ Колумбія: Американська психологічна асоціація.
Багулей, Т. (2009). Стандартизований або простий розмір ефекту: про що слід повідомити ?. Британський журнал психології, 100 (3), 603-617.
Bakker, M., & Wicherts, JM (2011). (Помилкова) звітність про статистичні результати у журналах психології. Методи дослідження поведінки, 43 (3), 666-678.
Боренштейн, М., Хеджес, Л. В., Хіггінс, Дж. Та Ротштайн, HR (2009). Вступ до мета-аналізу. Західний Сассекс, Великобританія: John Wiley & Sons, Ltd.
Carter, EC, Schönbrodt, FD, Gervais, WM, & Hilgard, J. (2017, 12 серпня). Виправлення зміщення в психології: Порівняння метааналітичних методів. Отримано з osf.io/preprints/psyarxiv/9h3nu
Chan, ME, & Arvey, RD (2012). Метааналіз та розвиток знань. Перспективи психологічної науки, 7 (1), 79-92.
Коен Дж. (1992). Силова грунтовка. Психологічний вісник, 112 (1), 155-159.
Куммінг, Г. (2008). Реплікація та p інтервали: значення p передбачають майбутнє лише невиразно, але довірчі інтервали роблять набагато краще. Перспективи психологічної науки, 3, 286– 300.
Дієнес, Д. (2008). Розуміння психології як науки: вступ до наукових та статистичних висновків. Нью-Йорк, Нью-Йорк: Palgrave MacMillan.
Фанеллі, Д. (2010). "Позитивні" результати збільшують ієрархію наук. PloS one, 5 (4), e10068.
Гельман, А., Стерн, Х. (2006). Різниця між "значущим" та "несуттєвим" сама по собі не є статистично значимою. Американський статистик, 60 (4), 328-331.
Gøtzsche, PC, Hróbjartsson, A., Marić, K., & Tendal, B. (2007). Помилки вилучення даних у метааналізах, які використовують стандартизовані середні відмінності. JAMA, 298 (4), 430-437.
Greenland, S., Schlesselman, JJ, & Criqui, MH (1986). Помилковість використання стандартизованих коефіцієнтів регресії та кореляцій як міри ефекту. Американський журнал епідеміології, 123 (2), 203-208.
Hoekstra, R., Morey, RD, Rouder, JN, & Wagenmakers, EJ (2014). Надійна помилкова інтерпретація довірчих інтервалів. Психономічний вісник та огляд, 21 (5), 1157-1164.
John, LK, Loewenstein, G., & Prelec, D. (2012). Вимірювання поширеності сумнівної дослідницької практики із заохоченням до правди. Психологічна наука, 23 (5), 524-532.
Кірк, РЕ (2003). Важливість величини ефекту. У С. Ф. Девіса (Ред.), Довідник методів дослідження в експериментальній психології (с. 83–105). Мальден, Массачусетс: Блеквелл.
Лакенс, Д. (2014). Ефективне проведення потужних досліджень за допомогою послідовних аналізів. Європейський журнал соціальної психології, 44 (7), 701-710.
Levine, TR, & Hullett, CR (2002). Ета у квадраті, частковому етапі у квадраті та неправильному звіті про розмір ефекту в комунікаційних дослідженнях. Дослідження людських комунікацій, 28 (4), 612-625.
Максвелл, SE (2004). Наполегливість недостатньо розвинених досліджень у психологічних дослідженнях: причини, наслідки та засоби усунення. Психологічні методи, 9 (2), 147.
Morey, RD, Hoekstra, R., Rouder, JN, Lee, MD, & Wagenmakers, EJ (2016). Помилковість довіри до довірчих інтервалів. Психономічний вісник та огляд, 23 (1), 103-123.
Носек, Б.А., Шпигуни, Ю.Р., і Мотиль, М. (2012). Наукова утопія: II. Реструктуризація стимулів та практик для просування правди щодо публічності. Перспективи психологічної науки, 7 (6), 615-631.
Nuijten, MB, Hartgerink, CH, van Assen, MA, Epskamp, S., & Wicherts, JM (2016). Поширеність помилок статистичної звітності в психології (1985–2013). Методи дослідження поведінки, 48 (4), 1205-1226.
Розенталь, Р. (1979). Проблема з ящиком файлів та толерантність до нульових результатів. Психологічний вісник, 86 (3), 638-641.
Сакалук, ЖК (2016). Дослідження малого, що підтверджує велике: Альтернативна система нової статистики для просунення кумулятивних та повторюваних психологічних досліджень. Журнал експериментальної соціальної психології, 66, 47-54.
Шиммак, США (2014). Кількісне визначення цілісності статистичних досліджень: індекс репликабельності. Отримано з http://www.r-index.org
Schmidt, FL, & Hunter, JE (1997). Вісім поширених, але помилкових заперечень щодо припинення тестування значимості при аналізі даних досліджень. У LL Harlow, SA Mulaik та JH Steiger (ред.), Що робити, якщо не було тестів на значущість? (с. 37–64). Mahwah, NJ: Ерльбаум.
Schönbrodt, FD (2015). p-checker: Аналізатор значення одного для всіх. Отримано з http://shinyapps.org/apps/p-checker/ .
Сіммонс, JP, Нельсон, LD та Сімонсон, США. (2011). Хибнопозитивна психологія: нерозкрита гнучкість у збиранні та аналізі даних дозволяє представити що-небудь як важливе. Психологічна наука, 22 (11), 1359-1366.
Сімонсон, США (2013). Нерозумність живлення реплік на основі спостережуваного розміру ефекту. Отримано з http://datacolada.org/4
Сімонсон, США (2014). Задній-хакерський. Отримано з http://datacolada.org/13 .
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-крива: ключ до ящика файлів. Журнал експериментальної психології: Загальне, 143 (2), 534-547.
Simonsohn, U., Nelson, LD, & Simmons, JP (2014). P-крива та розмір ефекту: виправлення зміщення публікацій, використовуючи лише значні результати. Перспективи психологічної науки, 9 (6), 666-681.
Wicherts, JM, Bakker, M., & Molenaar, D. (2011). Готовність ділитися даними досліджень пов'язана з міцністю доказів та якістю звітування статистичних результатів. PloS one, 6 (11), e26828.