Розмір ефекту як гіпотеза для перевірки значимості


37

Сьогодні у Cross Valified Journal Club (чому ти там не був?) @Mbq запитав:

Як ви вважаєте, ми (сучасні вчені даних) знаємо, що означає значення? І як це стосується нашої впевненості в наших результатах?

@Michelle відповів, як деякі (включаючи мене) зазвичай:

Я вважаю, що концепція значущості (заснована на p-значеннях) все менш корисна, оскільки я продовжую свою кар’єру. Наприклад, я можу використовувати надзвичайно великі набори даних, тому все є статистично значущим ( p<.01 )

Це, мабуть, дурне питання, але чи не проблема гіпотези, що перевіряється? Якщо ви перевірите нульову гіпотезу «A дорівнює B», то ви знаєте, що відповідь - «Ні». Більші набори даних лише наблизять вас до цього неминуче вірного висновку. Я вважаю, що Демінг колись наводив приклад з гіпотезою "кількість волосинок з правого боку ягняти дорівнює кількості волосків на її лівій стороні". Ну, звичайно, це не так.

Кращою гіпотезою було б "А не відрізняється від В більш ніж на стільки". Або, на прикладі ягняти, «кількість волосків з боків ягняти не відрізняється більш ніж на X%».

Це має сенс?


1) Тестування середньої еквівалентності (якщо припустити, що ви хочете) може в деяких випадках спрощуватися до перевірки значущості їх середньої різниці. За допомогою стандартної помилки для цієї оцінки різниці, ви можете робити всілякі тестування сортів "не відрізняються від B на більше ...". 2) Що стосується розміру вибірки - так, для великих ss значення значущості зменшується, але це все ще має вирішальне значення для менших зразків, де ви не можете просто генерувати додаткові значення.
Ондрей

11
Re "Звичайно, це не так." За здогадкою, ягня має на порядку волосків з кожного боку. Якщо таких волосків є парне число, і вони розподілені випадковим чином з рівними шансами по обидва боки, а сторони чітко окреслені, то ймовірність того, що обидва числа точно рівні, становить 0,178%. У великій зграї, що складається з декількох сотень, слід очікувати , що ви побачите таку ідеально врівноважену ягнятку, народжену принаймні один раз на десятиліття (якщо припустити, що рівна кількість волосків відбувається приблизно в 50% часу). Або: майже у кожного старого фермера-овець був такий ягня! 105
whuber

1
@whuber Це визначається метою аналізу. Кращою аналогією було б те, який мінімальний розмір ефекту може виправдати подальші інвестиції в препарат після випробування. Просто існування статистично значущого ефекту недостатньо, оскільки розробка препарату коштує дорого і можуть виникнути побічні ефекти, які потрібно враховувати. Це не статистичне питання, а практичне.
Дікран Марсупіал

2
@whuber Я підозрюю, що в більшості застосувань, де немає практичної інформації для визначення мінімального розміру ефекту, що цікавить, тоді стандартний тест на гіпотезу є нормальним, наприклад тестування на нормальність. Як Байєс, я погодився б з поглядом як на оптимізаційну проблему, а не на тестування гіпотези. Частина проблеми з тестами гіпотез є результатом підходу в кулінарній книзі зі статистикою, де тести виконуються як традиція без належного врахування мети вправи або справжнього значення результату (все, звичайно, ІМХО).
Дікран Марсупіал

1
@DikranMarsupial чи не ключовим є те, що студентів навчають тестам за допомогою грі, як визначено Гунгом нижче, а не важливістю хорошого дизайну дослідження? Чи більше уваги на дизайні дослідження допоможе вирішити якусь проблему - не обов'язково з великими наборами даних?
Мішель

Відповіді:


25

Що стосується тестування значущості (або будь-чого іншого, що робить по суті те саме, що і тестування на значимість), я давно подумав, що найкращим підходом у більшості ситуацій, ймовірно, є оцінка стандартизованого розміру ефекту, з 95% довірчим інтервалом щодо цього розмір ефекту Там нічого насправді нового - математично ви можете переміщати між собою назад і назад - якщо значення p для нульового нуля <0,05, то 0 лежатиме поза 95% CI, і навпаки. Перевага цього, на мою думку, є психологічним; тобто вона робить помітною інформацію, яка існує, але люди не бачать, коли повідомляються лише р-значення. Наприклад, легко помітити, що ефект є дико «значущим», але смішно малим; або "несуттєва", але лише тому, що смуги помилок величезні, тоді як прогнозований ефект є більш-менш тим, що ви очікували. Вони можуть бути поєднані з вихідними значеннями та їхніми ІС.

Зараз у багатьох сферах нераціональні значення мають суттєве значення, і я визнаю, що виникає питання, чи варто все-таки обчислювати міри розміру ефекту, враховуючи, що у нас вже є такі значення, як засоби та нахили. Прикладом може бути розгляд затримки росту; ми знаємо, що означає для 20-річного білого самця на 6 +/- 2 дюйма коротше (тобто на 15 +/- 5 см), ніж вони б інакше, то чому б згадати ? Я схиляюсь до думки, що в звіті про те і інше може бути корисно, і функції для їх обчислення можуть бути записані так, що зайвої роботи це дуже мало, але я усвідомлюю, що думки будуть різними. У будь-якому випадку я стверджую, що точкові оцінки з довірчими інтервалами замінюють значення p як першу частину моєї відповіді. d=1.6±.5

З іншого боку, я думаю, що головне питання - це те, що тестування значимості робить те, що ми насправді хочемо? Я думаю, що справжня проблема полягає в тому, що для більшості людей, що аналізують дані (тобто практикуючі, а не статистичні), перевірка значимості може стати повною мірою аналізу даних. Мені здається, що найважливіше - це принциповий спосіб думати про те, що відбувається з нашими даними, і тестування значимості нульової гіпотези в кращому випадку - це дуже мала частина цього. Дозвольте навести уявний приклад (я визнаю, що це карикатура, але, на жаль, я боюся, що це дещо правдоподібно):

Боб проводить дослідження, збираючи дані про щось чи інше. Він очікує, що дані будуть звичайно розподілятися, щільно згрупуючись навколо деякого значення, і має намір провести одноразовий тест, щоб перевірити, чи є його дані «суттєво відмінними» від деякого заздалегідь заданого значення. Після збору зразка він перевіряє, чи нормально поширюються його дані, і виявляє, що їх немає. Натомість вони не мають яскраво виражених грудочок у центрі, але відносно високі протягом заданого інтервалу, а потім відтягуються довгим лівим хвостом. Боб хвилює те, що йому слід зробити, щоб перевірити його тест. Він закінчує щось робити (наприклад, перетворення, непараметричний тест тощо), а потім повідомляє статистику тесту та p-значення.

Я сподіваюся, що це не виходить таким неприємним. Я не хочу над кимось знущатися, але думаю, що щось подібне трапляється зрідка. Якщо цей сценарій відбудеться, ми можемо погодитись, що це недостатній аналіз даних. Однак проблема полягає не в тому, що статистика тесту або значення p невірно; ми можемо стверджувати, що дані були оброблені належним чином у цьому відношенні. Я б заперечував, що проблема полягає в тому, що Боб займається тим, що Клівленд назвав "аналізом даних". Він, здається, вважає, що єдиним моментом є отримання правильного p-значення, і дуже мало думає про свої дані поза досягненням цієї мети. Він навіть міг перейти на мою пропозицію вище і повідомив про стандартизований розмір ефекту з довірчим інтервалом 95%, і це не змінило б те, що я бачу як більшу проблему (це те, що я мав на увазі, роблячи "по суті те саме "іншим способом). У цьому конкретному випадку те, що дані виглядали не так, як він очікував (тобто не було нормально), є реальною інформацією, це цікавоі дуже можливо важливо, але ця інформація по суті просто викидається. Боб не визнає цього через фокус на тестуванні значущості. На мій погляд, це справжня проблема тестування значимості.

Дозвольте звернутися до кількох інших перспектив, які були згадані, і я хочу бути зрозумілим, що я нікого не критикую.

  1. Часто згадується, що багато людей насправді не розуміють p-значень (наприклад, думаючи, що це ймовірність того, що нульове значення є істинним) тощо. Іноді стверджується, що, якби тільки люди використовували байєсівський підхід, ці проблеми йди геть. Я вважаю, що люди можуть підходити до аналізу даних Байєса таким чином, як настільки ж химерний і механічний. Однак я думаю, що нерозуміння значення p-значень було б менш шкідливим, якби ніхто не думав отримати р-значення.
  2. Існування "великих даних", як правило, не пов'язане з цим питанням. Великі дані лише дають зрозуміти, що організація аналізу даних навколо «значущості» не є корисним підходом.
  3. Я не вірю, що проблема полягає в тестуванні гіпотези. Якби люди хотіли лише перевірити, чи не оцінюється значення за межами інтервалу, а не, якщо воно дорівнює бальній величині, може виникнути багато однакових питань. (Знову ж, я хочу зрозуміти, я знаю, що ти не "Боб" .)
  4. Для запису хочу зазначити, що моя власна пропозиція з першого абзацу не стосується цього питання, як я намагався вказати.

Для мене це головне питання: те, що ми дійсно хочемо, - це принциповий спосіб думати про те, що сталося . Що це означає в будь-якій ситуації, не різати і не сушити. Як сказати це учням на уроці методів, не є ні зрозумілим, ні простим. Тестування значущості має за собою багато інерційності та традицій. У класі статистики зрозуміло, що потрібно навчати і як. Для студентів та практиків стає можливим розробити концептуальну схему розуміння матеріалу та контрольний список / блок-схему (я бачив деякі!) Для проведення аналізу. Тестування значущості може, природно, перетворитись на аналіз даних, які не піддаються, без того, щоб хтось був німим, ледачим чи поганим. У цьому проблема.


Мені подобаються інтервали довіри :) Одне запитання: ти мав на увазі, що після спеціального розрахунку розміру ефекту все в порядку?
Мішель

x¯1=10x¯2=14SD=6d=.67

Так, я думаю, що ми згодні тут.
Мішель

+1 Історія про Боба мені нагадує про це: pss.sagepub.com/content/early/2011/10/17/0956797611417632
Carlos

+1 Я більше віддаю перевагу надійним інтервалам. Щодо пункту 1, я б заперечував, що байєсівські альтернативи мають меншу ймовірність результату аналізу даних даних, оскільки визначення ймовірності не є настільки протиінтуїтивним, що значно спрощує формулювання питання, яке ви насправді хочете задати статистично . Справжня проблема полягає в тому, що для проведення тестування потрібні інтерграли, які є надто складними для широкого використання таких методів. Сподіваємось, програмне забезпечення розвинеться до того, що користувач може сконцентруватися на формулюванні питання і залишити решту на комп’ютері.
Дікран Марсупіал

18

Чому ми наполягаємо на будь-якій формі тестування гіпотез у статистиці?

У чудовій книзі « Статистика як принциповий аргумент» Роберт Абелсон стверджує, що статистичний аналіз є частиною принципового аргументу щодо теми, про яку йдеться. Він каже, що замість того, щоб оцінюватись як гіпотези, які потрібно відхилити чи не відхилити (або навіть прийняти!

Величина - наскільки вона велика? Артикуляція - чи повно винятків? Чи зрозуміло? Загальність - як це правило застосовується? Цікавість - нас хвилює результат? Надійність - чи можемо ми вірити в це?

Мій огляд книги у своєму блозі


4
Проблему розглядають деякі професори. Мій доктор філософії - з психометрії, що на кафедрі психології. Я чув, як викладачі з інших частин кафедри говорять про такі речі, як "просто повідомте про значення p, це важливо". Моя робота - консалтинг, здебільшого з аспірантами та дослідниками у соціальній, поведінковій, освітній та медичній сферах. Кількість дезінформації, яку надають докторські комітети, вражає.
Пітер Флом - Відновіть Моніку

1
+1 для "Чому ...", це велика частина того, що я намагався отримати у своїй відповіді.
gung - Відновіть Моніку

Інша частина того, що я намагався досягти у своїй відповіді, - це те, що я думаю, що це відбувається природно. До речі, не вистачає двох оновлень ;-), ти можеш поєднати ці.
gung - Відновіть Моніку

13

H0:{|μ1μ2|>ϵ}ϵμ1μ2ϵμ1μ2Pr(|X1X2|>ϵ)


(+1) І ласкаво просимо до 1000 репутації. Ура.
кардинал

6

Традиційні тести гіпотез говорять про те, чи є статистично значущі докази існування ефекту, тоді як те, про що ми часто хочемо знати, - це існування доказів практично значущого ефекту.

Безумовно, можна сформувати байєсовські «тести на гіпотези» з мінімальним розміром ефекту (IIRC є приклад цього в книзі Девіда Маккея «Алгоритми інформаційної теорії, висновку та навчання», я перегляну це, коли з’явиться .

Тестування на нормальність - ще один хороший приклад, ми зазвичай знаємо, що дані насправді не розповсюджуються нормально, ми просто тестуємо, чи є докази того, що це не є розумним наближенням. Або тестуючи на зміщення монети, ми знаємо, що вона навряд чи буде повністю упереджена, оскільки вона асиметрична.


6

Багато цього зводиться до того, яке питання ви насправді задаєте, як ви розробляєте навчання і навіть, що ви маєте на увазі під рівнем.

Я колись опинив цікаву маленьку вставку в Британському медичному журналі, яка розповідала про те, що люди трактують певні фази. Виявляється, що "завжди" може означати, що щось трапляється за 91% часу (BMJ VOLUME 333 26 серпня 2006, стор. 445). Тож може вважатися, що рівне та рівнозначне (або в межах X% для деякого значення X) означає те саме. І давайте запитаємо комп'ютер просту рівність, використовуючи R:

> (1e+5 + 1e-50) == (1e+5 - 1e-50)
[1] TRUE

$$

Ha:μ>μ0H0:μ=μ0H0:μμ0μμ0μ0μμ0μ0 μμμ0мкмк0мк0 мк

Багато цього зводиться до того, щоб поставити правильне запитання і створити правильне дослідження для цього питання. Якщо у вас є достатньо даних, щоб показати, що практично безглузда різниця є статистично значущою, ви витратили даремно ресурси, отримавши стільки даних. Було б краще вирішити, яка змістовна різниця буде, і розробили дослідження, щоб дати вам достатньо сил для виявлення цієї різниці, але не менше.

І якщо ми дійсно хочемо розділити волоски, то як визначити, які частини ягняти знаходяться праворуч, а які - зліва? Якщо ми визначимо це за рядком, який за визначенням має рівну кількість волосків на кожній стороні, то відповідь на вищезазначене питання стає "Звичайно, це так".


Я підозрюю, що відповідь, яку ви отримаєте від R, є просто результатом якоїсь арифметичної проблеми з плаваючою комою, а не свідомим рішенням ігнорувати невідповідні відмінності. Розглянемо класичний приклад (.1 + .2) == .3 "Чистий математик" сказав би вам, що вони є рівними, на будь-якому рівні точності, але R повертає ЛЮЖЕ.
Гала-

@ GaëlLaurans, моя думка полягає в тому, що завдяки округленню (будь то лаконічне чи людиною, чи комп'ютером) поняття абсолютно рівні і в межах X% для досить малого X практично однакові.
Грег Сніг

5

З організаційної точки зору, будь то уряд, який пропонує варіанти політики, або компанія, яка прагне впровадити новий процес / продукт, використання простого аналізу витрат і вигод може також допомогти. У минулому я доводив, що (ігноруючи політичні причини) з огляду на відому вартість нової ініціативи, яка точка беззбитковості для кількості людей, на які ця ініціатива повинна позитивно вплинути? Наприклад, якщо новою ініціативою є залучення на роботу більшої кількості безробітних, а ініціатива коштує $100,000, чи вдасться досягти зменшення трансфертів безробіття як мінімум $100,000? Якщо ні, то ефект від ініціативи практично не суттєвий.

Для результатів для здоров'я значення статистичного життя набуває важливого значення. Це пояснюється тим, що пільги для здоров’я накопичуються протягом усього життя (і тому переваги коригуються вниз за вартістю, виходячи із ставки дисконтування ). Тоді замість статистичної значущості отримують аргументи щодо того, як оцінити значення статистичного життя та яку ставку дисконтування слід застосовувати.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.