Розуміння Гельмана та Карліна "Поза потужністю: ..." (2014)


11

Я читаю Гельмана та Карліна "Поза межами обчислень потужності: Оцінка помилок типу S (знак) та типу M (величина)" (2014). Я намагаюся зрозуміти головну ідею, основний зліт, але я розгублений. Хтось може допомогти мені перегнати суть?

У статті йде щось подібне (якщо я правильно це зрозумів).

  • Статистичні дослідження в психології часто зазнають невеликих зразків.
  • За умови статистично значущого результату в даному дослідженні,
    (1) справжній розмір ефекту, ймовірно, буде сильно завищений, і
    (2) ознака ефекту може бути протилежною з великою ймовірністю - якщо тільки розмір вибірки не буде досить великим.
  • Вищезазначене показано, використовуючи попередню здогадку про розмір ефекту в популяції, і зазвичай цей ефект вважається невеликим.

Моя перша проблема полягає в тому, чому умова на статистично значущий результат? Чи слід відображати упередженість видання? Але це, мабуть, не так. То чому ж тоді?

Друга моя проблема - якщо я роблю дослідження самостійно, чи слід ставитися до своїх результатів інакше, ніж я звикла (я займаюсь частою статистикою, не дуже знайома з байесівською)? Наприклад, я б взяв зразок даних, оцінив модель і записав би бальну оцінку для деякого ефекту інтересу та довіри навколо нього. Чи варто мені тепер довіряти своєму результату? Або я повинен недовіряти йому, якщо він є статистично значущим? Як будь-яка задана попередня зміна цього?

Що є основним виводом (1) для "виробника" статистичних досліджень та (2) для читача прикладних статистичних робіт?

Список літератури:

PS Я думаю, що для мене новим елементом є включення попередньої інформації, до якої я не впевнений, як ставитися (виходячи з парадигми частолістів).


Як бачите, я досить розгублений, тому мої запитання можуть не здаватися узгодженими або обґрунтованими. Я буду вдячний за будь-які підказки щодо отримання більшого сенсу з паперу, який я вивчаю. Я сподіваюся, що в міру прогресування мого розуміння цього питання вдасться поставити більш розумні питання.
Річард Харді

7
Зауважте, що вони ставили передумову статті на самому початку: " Ви щойно закінчили експеримент. Ви аналізуєте результати та отримуєте значний ефект . Успіх! Але зачекайте - скільки інформації насправді дає ваше дослідження "Скільки слід довіряти своїм результатам? " --- вони описують, що відбувається / що мається на увазі, коли ти маєш важливість. Вони використовують ці наслідки для мотивації зосередження уваги на речах, відмінних від значення.
Glen_b -Встановіть Моніку

Вам слід довіряти своєму результату - так - якщо ви проводите кілька тестів на значущість і відфільтровуєте все, що виявляється незначним; це свого роду "упередженість публікації", але це може статися без будь-яких публікацій, просто в лабораторії однієї людини протягом декількох місяців або років експериментів. Усі певною мірою роблять щось подібне, звідси і педагогічний інтерес до обумовлення значних результатів.
амеба

@amoeba, гаразд, але якщо (гіпотетично) я оцінюю лише одну модель і зосереджуюсь лише на одному заздалегідь визначеному параметрі (так що абсолютно немає багаторазового тестування), чи змінив би результат Gelman & Carlin щось? Як щодо включення попередньої інформації?
Річард Харді

2
Попередня інформація потрібна для оцінки швидкості виявлення помилок; звичайна логіка тестування значущості гарантує лише коефіцієнт помилок типу I (signif | null). Щоб оцінити P (null | signif), вам потрібно використати деякий попередній. Ось що тут роблять Gelman & Carlin. Якщо ви оцінюєте лише одну модель, то "показник помилкового виявлення" є безглуздим (у частістському підході); але зазвичай люди оцінюють багато моделей :-) або принаймні читають літературу, яка складається з інших людей, що оцінюють багато моделей.
амеба

Відповіді:


5

Я перечитав папір і цього разу здається набагато зрозумілішим. Тепер також корисні коментарі @Glen_b та @amoeba мають багато сенсу.

Вся дискусія ґрунтується на вихідній точці, що отримано статистично значимий результат. За умови цього, у нас розмір оцінюваного ефекту розподіляється інакше, ніж це було б відсутнє обумовлення: Здається, ця стаття стосується двох проблем:

Пβ^(|β^ є статистично значущим)Пβ^().
  1. Упередженість публікацій (публікуються лише статистично значущі результати) та
  2. Зміщення в проектних розрахунках для нових досліджень (беручи занадто великі розміри очікуваного ефекту в якості орієнтирів).

Хороша новина в тому, що обидві проблеми можна вирішити задовільно.

  1. З огляду на очікуваний розмір очікуваного ефекту , орієнтовний розмір ефекту (якщо припустити, що він був опублікований, оскільки він був статистично значущим, а в іншому випадку він не був би опублікований), розрахункова стандартна помилка та сімейство розподілу (напр., нормальне чи студентське ) оцінювача, ми можемо відстежити безумовний розподіл розміру ефекту .βpлаусiблеβ^с.е.(β^)тПβ^()
  2. Використовуючи попередні висновки, за допомогою 1. можна визначити розмір правдоподібного ефекту та використати у проекті дослідження.βpлаусiбле

Щоб коротко відповісти на два мої власні питання:

  1. Йдеться про упередженість публікацій, хоча не в сенсі днопоглиблення даних, а в контексті недостатньо досліджених досліджень; є статистично значущий результат, ймовірно, належить до, скажімо, 5% відхилень під нулем (таким чином, нуль насправді є правдою, але ми випадково опинилися далеко від неї випадково), а не відхилення під альтернативою (де null не вірно, і результат "справжній").
  2. Мені слід бути обережним щодо відхилення нуля, оскільки статистично значимий результат, швидше за все, буде обумовлений випадковістю (навіть якщо шанс обмежений, скажімо, 5%), а не "справжнім" ефектом (через низьку потужність) .

2
Ця відповідь Glen_b також дуже корисна.
Річард Харді

Idk, якщо насправді є щось зайве, але я також написав відповідь на це питання, яка може бути корисною. Один момент: Я думаю, що вони не обов'язково виступають за оцінку "справжнього" розподілу розміру ефекту за допомогою ( у статті називається ), а скоріше використовують його для оцінки ймовірності створення типу S або Помилка типу M на основі ваших поточних результатів тестування. Це баєсівський, але ІМХО на зразок "байєсієць-літ";), оскільки ви все ще використовуєте його для інтерпретації результатів тесту частотизму. βpлаусiблеD
Патрік Б.

@PatrickB., Дякую. Я погляну трохи пізніше. (Я бачу, що я вже схвалив цю вашу відповідь; це означає, що я вже вважав її корисною.)
Річард Харді

1
Річард, я розробив функцію R для оцінки помилок типу "S" і типу "М" для більш загального випадку розмірів ефекту, а не того, що показує Гельман при нормальному розподілі. Коли ви читаєте документ, простий процес відновлення з раніше, і статистично значущої знахідки. Але весь процес повністю заснований на аналізі потужності. По суті, для невеликих галасливих досліджень SE є великим і, якщо припустити декілька розумних шляхом емпірично перевірених розмірів правдоподібного ефекту, ви можете отримати розумні ...
rnorouzian

1
... оцінок щодо того, що має включати майбутнє дослідження щодо розміру вибіркової вибірки, необхідного для уникнення отримання високих показників типу "S" та високого рівня перебільшення (тобто типу "М"). Для записів, тип "S" Гельмана - це просто той фрагмент під розподілом розміру основного ефекту, який знаходиться на протилежному боці ефекту, що поділяється на потужність. У будь-якому випадку, подивіться на функцію, якщо вона може допомогти.
rnorouzian

2

У цьому документі є ще один кут, який може бути корисним, якщо ви вже застосовуєте байєсівський аналіз і не піклуєтесь про частину статистичної значущості.

ПβVβ

p(β|V)p(V|β)p(β)

VVp(V|β)

βpлаусiблеП(V|β)β=βpлаусiблеVβpлаусiбле - справжній розмір ефекту.

Vβ

VV

ββpлаусiбле

βpлаусiбле

βpлаусiбле

Ви повинні бути обережними, щоб ніхто не зловживав цією метрикою "потужності", як це те саме, що і частофілістський розрахунок потужності, що досить важко. Але всі ці показники є досить корисними для перспективного та ретроспективного аналізу дизайну, навіть коли вся процедура моделювання є байєсівською і не стосується жодного результату статистичної значущості.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.