Що таке розмір ефекту… і чому він навіть корисний?


18

У мене є інформація про статистику на вступному рівні для випускників (припустимо, я знаю математичну статистику та ймовірність на рівні бакалаврату (наприклад, Wackerly et al., Ross’s Probability) і маю деякі знання з теорії вимірювань).

Нещодавно я розпочав роботу з експериментального проектування та статистичної звітності зі статистики освіти, і був розміщений на проекті, де я в основному оцінюю показники підзвітності для шкіл і мушу аналізувати дані, пропонувати зміни тощо. Зауважте, що я єдиний один у моєму відділі з математичною інформацією.

На мою позицію, люди настійно пропонують використовувати розмір ефекту для вимірювання ефективності програм. Єдиний раз, коли я чув про розмір ефекту, це від мого друга, який вивчав психологію. Моє враження, що

Effect Size=Difference of MeansStandard Deviation.

Що так корисно в цій метриці над тестуванням традиційних гіпотез, і чому я повинен дбати про неї? Для мене це виглядає не що інше, як тестова статистика для двопробного test. Я взагалі не бачу цього корисного, крім того, що, можливо, ставити все в одній шкалі (саме тому хтось справді "нормалізує" що-небудь), але я подумав, що статистика тестів (що таке, як мені здається, розмір ефекту) не вийшло з моди , а р -значення є кращими.tp


Мене трохи бентежить "передумови статистики на вступному та випускному рівнях"; перші два терміни, здається, суперечать один одному. Чи можете ви уточнити, що це включає? Це щось на кшталт початку статистики випускників чи щось інше?
Glen_b -Встановити Моніку

2
@Glen_b Так, це починає статистику на рівні випускників. Припустимо, я знаю математичну статистику та ймовірність на рівні бакалаврату (наприклад, Wackerly et al., Ross’s Probability) і маю деякі знання з теорії мір.
Кларнетист

3
Можу співчувати, ОП. Виходячи з математики / статистики, часто було дивовижно обговорювати статистику з тими, хто навчається в аспірантурах з соціології чи психології, тому що вони мають різні терміни для всього :) і іноді мають жорсткі уявлення про те, як саме робити справи, незалежно від того, чи це найкраща статистична практика, наприклад, намагаючись переконати впертого рецензента / редактора, що моделювання структурних рівнянь не є рішенням усіх проблем, або що лінійність не завжди є хорошим припущенням! Однак я навчився досить добре поєднуватися з цією громадою через кілька років!
CrockGill

Відповіді:


20

Це одна міра ефекту, але є багато інших. Це, звичайно , НЕ тестової статистики. Ваш показник розміру ефекту часто називають d Коена (строго кажучи, що це правильно, лише якщо SD оцінюється за допомогою MLE - тобто без корекції Бесселя ); більш загально, це називається «стандартизована середня різниця». Можливо, це дозволить зрозуміти, що t d : dтгтг
Тобто, "/

г=х¯2-х¯1SDт=х¯2-х¯1SЕт=х¯2-х¯1SDN
"відсутня у формули для стандартизованої середньої різниці. /N

Більш загально, вилучення розміру вибірки зі значення надає реальну інформацію. Якщо припустити , що істинний ефект не точно до нескінченних знаків після коми, ви можете досягти будь-якого рівня значущості вам можуть сподобатися з достатньою N . Значення p- містить інформацію про те, наскільки впевненими ми можемо бути у відхиленні нульової гіпотези, але це робиться шляхом співвіднесення, наскільки великий ефект має кількість ваших даних. Це, звичайно , приємно знати , якщо ми повинні відкинути нульову гіпотезу, але також було б приємно знати , якщо ефект вашого освітнього втручання дає великі вигоди для школярів або тривіальний і був єдиним значним з - за великий N . 0NpN


15

Я сподіваюся, що хтось із досвідом у більш релевантній галузі (скажімо, психологія чи освіта) зазвучить з кращою відповіддю, але я підкажу.

" Розмір ефекту " - це термін, що має більше ніж одне значення - який минув багато років, вів кілька заплутаних розмов, поки я врешті не дійшов до цього усвідомлення. Тут ми чітко маємо справу з версією масштабованого стандартного відхилення ("на скільки стандартних відхилень це змінилося?")

Частина причини розгляду такого типу "розміру ефекту" в предметних областях, в яких вони є загальними, полягає в тому, що вони часто мають змінні, конкретні значення яких не мають за своєю суттю значущості, але будуються для того, щоб спробувати виміряти основні речі, які важко отримати у.

Наприклад, уявіть, що ви намагаєтеся виміряти задоволеність роботою (можливо, для моделі, яка пов'язує це з деяким набором незалежних змінних, можливо, включаючи, наприклад, деяке трактування інтересів). У вас немає ніякого способу прямого звернення до нього, але ви можете (наприклад) спробувати скласти якийсь анкету, щоб дізнатися про різні його аспекти, можливо, використовуючи щось на зразок шкали Лікерта.

У іншого дослідника може бути різний підхід до вимірювання задоволеності роботою, і тому два ваші набори вимірювань «Задоволеності» не можна порівняти безпосередньо - але якщо вони мають різні форми дійсності та інше, щоб перевірити ці речі вони можуть обґрунтовано вимірювати задоволення), тоді можна сподіватися, що вони матимуть дуже подібні розміри ефектів; принаймні розмір ефекту буде майже порівнянним.


3
робить дуже приємну роботу, впроваджуючи ідею "конструкції" без технічних питань. Але у своїй роботі, кларнетист, вам потрібно буде трохи зрозуміти цю ідею. Я настійно рекомендую першоджерело про "достовірність конструкції", статтю Cronbach & Meeh 1955 року в "Психологічному віснику": psych.colorado.edu/~willcutt/pdfs/Cronbach_1955.pdf
Девід К. Норріс

7

Наведена вище формула полягає в тому, як ви обчислюєте d Коена для пов'язаних зразків (що, мабуть, у вас є?), Якщо вони не пов'язані, ви можете використовувати замість них об'єднану дисперсію. Існують різні статистичні дані, які розкажуть вам про розмір ефекту, але d Коена - це стандартизована міра, яка може змінюватися від 0 до 3. Якщо у вас багато різних змінних, може бути приємно мати стандартизовану міру, коли ви думаєте про їх усі разом. З іншого боку, багато людей вважають за краще розуміти розмір ефекту з огляду на вимірювані одиниці. Навіщо обчислювати d, коли у вас вже є значення p? Ось приклад із набору даних, з яким я зараз працюю. Я дивлюся на поведінкове втручання, яке проводиться в школах, вимірюється за допомогою валідованих психологічних опитувальників (надання даних Лікерта). Майже всі мої змінні показують статистично значущі зміни, можливо, це не дивно, оскільки у мене є великий вибірки (n = ~ 250). Однак для деяких змінних Когенівський d- це зовсім незначно, скажімо, 0,12, що вказує на те, що, хоча зміни, безумовно, є, це може бути не клінічно важливою зміною, тому важливо обговорити та інтерпретувати те, що відбувається в даних. Ця концепція широко використовується в науках про психологію та здоров’я, де практикуючі лікарі (або школи у вашому випадку) повинні враховувати фактичну клінічну корисність лікування (або все, що вони експериментують). D Коена допомагає нам відповісти на запитання про те, чи дійсно варто робити втручання (незалежно від значення p). У медичних науках вони також люблять розглянути NNTта оцініть це з урахуванням тяжкості відповідного стану. Погляньте на цей чудовий ресурс від @krstoffr http://rpsychologist.com/d3/cohend/


2

Те, що ви написали, не є тестовою статистикою. Це міра, яка використовується для визначення того, наскільки два засоби відрізняються. Як правило, розміри ефектів використовуються для кількісного визначення того, наскільки далеко від нульової гіпотези щось знаходиться. Наприклад, якщо ви робите аналіз потужності для двох зразківт-тест, ви можете оцінити потужність як функцію від розміру ефекту (для фіксованого н) Ви щойно писали (що, я думаю, називається D Коена). В інших контекстах розмір ефекту може бути чимось іншим.

Також не рідкість повідомляти про розміри ефектів, використовуючи кількість вибірок, що може збігатися з деякими звичними статистичними даними, такими як кореляція груші - справжній розмір ефекту є базовим коефіцієнтом кореляції, який генерував дані, але кореляція вибірки є також корисною інформацією для мають іноді. Метою кількісної оцінки того, наскільки далекі від нульової гіпотези спостережувані дані так чи інакше є, а не просто звітування проp-цінить і називає це день.


2

Насправді, значення p також тепер нарешті не вийшло з моди: http://www.nature.com/news/psychology-journal-bans-p-values-1.17001 . Тест на значимість гіпотези (NHST) дає трохи більше, ніж опис розміру вашої вибірки. (*) Будь-яке експериментальне втручання матиме певні ефект, тобто, що проста строкова нульова гіпотеза «без ефекту» завжди є хибною у строгому розумінні . Отже, "незначний" тест просто означає, що розмір вибірки був недостатньо великим; "вагомий" тест означає, що ви зібрали достатньо даних, щоб "щось знайти".

"Розмір ефекту" являє собою спробу виправити це шляхом введення міри в природному масштабі проблеми. У медицині, де лікування завжди є певний ефект (навіть якщо це ефект плацебо), вводиться поняття "клінічно значущого ефекту", щоб запобігти 50% попередньої ймовірності того, що "лікування" виявиться "( статистично) значущий позитивний ефект "(хоча і незначний) у довільно великому дослідженні.

Якщо я розумію природу вашої роботи, кларнетист, то наприкінці дня її законною метою є інформування про дії / втручання, які покращують освіту в школах, що знаходяться під вашим завданням. Таким чином, ваше налаштування є теоретичним рішенням , а байєсівські методи є найбільш підходящими (і однозначно узгоджений [1] ) підхід.

Дійсно, найкращий спосіб зрозуміти частолістські методи - це наближення до байєсівських методів . Розрахунковий розмір ефекту можна розуміти як націлений на міру центральності байєсівського заднього розподілу , тоді як р-значення можна розуміти як спрямоване на вимірювання одного хвоста цієї задньої частини. Таким чином, ці дві величини разом містять деяку грубу суть байєсівської задньої частини, яка є природним внеском до теоретичного світогляду рішення щодо вашої проблеми. (Крім того, частотний довірчий інтервал щодо розміру ефекту можна розуміти так само, як імовірний інтервал Wannabe .)

У галузях психології та освіти байєсівські методи насправді досить популярні. Однією з причин цього є те, що легко встановлювати «конструкції» в байєсівські моделі як латентні змінні. Ви можете перевірити "цуценя книжку" Джона К. Крушке , психолога. В освіті (де у вас є вкладені учні в аудиторії, вкладені в школах, вкладені в округи, ...) ієрархічне моделювання неминуче. І байєсівські моделі також чудово підходять для ієрархічного моделювання. На цьому рахунку ви можете перевірити Gelman & Hill [2].

[1]: Роберт, Крістіан П. Байєсівський вибір: від теоретичних основ прийняття рішень до обчислювальної імплементації. 2-е вид. Тексти Спрінгера в статистиці. Нью-Йорк: Спрингер, 2007.

[2]: Гельман, Ендрю та Дженніфер Хілл. Аналіз даних за допомогою регресійної та багаторівневої / ієрархічної моделей. Аналітичні методи соціальних досліджень. Кембридж; Нью-Йорк: Cambridge University Press, 2007.


Більш детальну інформацію про "узгодженість" з точки зору не обов'язково бити-ти-в-голову-з-байєсівської цегли див. [3].

[3]: Робінс, Джеймс та Ларрі Вассерман. "Умова, ймовірність та узгодженість: огляд деяких основних понять". Журнал Американської статистичної асоціації 95, вип. 452 (1 грудня 2000 р.): 1340–46. doi: 10.1080 / 01621459.2000.10474344.

(*) У [4] Meehl биє NHST набагато елегантніше, але не менш абразивно, ніж я:

Оскільки нульова гіпотеза є хибною завжди хибною, таблиці, що підсумовують дослідження з огляду на закономірності «суттєвих відмінностей», є дещо більш ніж складними, причинно непереборними результатами функцій статистичної влади.

[4]: Meehl, Paul E. "Теоретичні ризики та табличні зірочки: сер Карл, сер Рональд і повільний прогрес м'якої психології". Journal of Consulting and Clinical Psychiatry 46 (1978): 806–34. http://www3.nd.edu/~ghaeffel/Meehl(1978).pdf


А ось пов’язана цитата з Tukey: /stats//a/728/41404


1
" Будь-яке експериментальне втручання дасть певний ефект" (мій наголос) - досить сильне твердження, як і подальше "завжди". У деяких галузях дослідження це, мабуть, чудове правило, але я думаю, що є занадто велика небезпека. Я також припускаю, що "[NHST] дає трохи більше, ніж опис розміру вашої вибірки" є спірним: p-значення випливає із взаємодії як між розміром вибірки, так і розміром ефекту.
Срібна рибка

@Silverfish, дякую за відповідь. Я б запропонував вам навести приклад, коли моє бачення p-значень було б "небезпечним". (До речі, я помістив деякий курсив, і використовував фразу «в строгому сенсі цього слова» в очікуванні скарги , такі , як ваші. Я стверджую , до сих пір стоїть.) Крім того, хоча значення р дійсно «виникає з взаємодії» з два інші фактори, один з цих (розмір вибірки) - це багато в чому вільний параметр проектування, обраний довільно. Цей довільний вибір - це те, що відображає значення р. Дві цифри однозначно потрібні; чому б не кінцеві точки довірчого інтервалу?
Девід К. Норріс

2
Як приклад: будь-який випадок, коли ми можемо з розумом очікувати, що нульова гіпотеза буде істинною, або, принаймні, там, де ми не змогли би сказати прямо, що ми впевнені, що це неправда, навіть не намагаючись провести експеримент або переглянути дані. Не всі нулі помилкові: розгляньте дослідження в парапсихології, такі як експерименти з телепатією та попереднім пізнанням, але багато нулів вірні в галузях, які можна вважати більш "науково обгрунтованими", наприклад, геномікою.
Срібна рибка

5
-1, тут багато проблем, ІМО. Той факт, що 1 незначний психологічний журнал заборонив p-значення, не означає, що "значення p зараз остаточно не вийшло". Заборону широко піддавали критиці (включаючи ввічливу заяву ASA & не приймалася жодними іншими журналами впродовж місяців. Зазначу, що журнал не потребує переходу на байєсівські методи (які, на мою думку, є вашими уподобаннями) , але розглянемо це лише в кожному конкретному випадку.
gung - Відновіть Моніку

3
Однак у справжньому експерименті процес рандомізації одиниць розбиває ендогенні шляхи, що дає випробування прямого причинного шляху від X до Y. Дивна метафізична заява стверджувати, що всі змінні безпосередньо причинно-наслідково пов'язані в обох напрямках, але якщо не дотримуйтесь цього, є некоректним стверджувати, що "нульова гіпотеза" без ефекту "завжди помилкова".
gung - Відновити Моніку
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.