Що стосується тестування значущості (або будь-чого іншого, що робить по суті те саме, що і тестування на значимість), я давно подумав, що найкращим підходом у більшості ситуацій, ймовірно, є оцінка стандартизованого розміру ефекту, з 95% довірчим інтервалом щодо цього розмір ефекту Там нічого насправді нового - математично ви можете переміщати між собою назад і назад - якщо значення p для нульового нуля <0,05, то 0 лежатиме поза 95% CI, і навпаки. Перевага цього, на мою думку, є психологічним; тобто вона робить помітною інформацію, яка існує, але люди не бачать, коли повідомляються лише р-значення. Наприклад, легко помітити, що ефект є дико «значущим», але смішно малим; або "несуттєва", але лише тому, що смуги помилок величезні, тоді як прогнозований ефект є більш-менш тим, що ви очікували. Вони можуть бути поєднані з вихідними значеннями та їхніми ІС.
Зараз у багатьох сферах нераціональні значення мають суттєве значення, і я визнаю, що виникає питання, чи варто все-таки обчислювати міри розміру ефекту, враховуючи, що у нас вже є такі значення, як засоби та нахили. Прикладом може бути розгляд затримки росту; ми знаємо, що означає для 20-річного білого самця на 6 +/- 2 дюйма коротше (тобто на 15 +/- 5 см), ніж вони б інакше, то чому б згадати ? Я схиляюсь до думки, що в звіті про те і інше може бути корисно, і функції для їх обчислення можуть бути записані так, що зайвої роботи це дуже мало, але я усвідомлюю, що думки будуть різними. У будь-якому випадку я стверджую, що точкові оцінки з довірчими інтервалами замінюють значення p як першу частину моєї відповіді. d=−1.6±.5
З іншого боку, я думаю, що головне питання - це те, що тестування значимості робить те, що ми насправді хочемо? Я думаю, що справжня проблема полягає в тому, що для більшості людей, що аналізують дані (тобто практикуючі, а не статистичні), перевірка значимості може стати повною мірою аналізу даних. Мені здається, що найважливіше - це принциповий спосіб думати про те, що відбувається з нашими даними, і тестування значимості нульової гіпотези в кращому випадку - це дуже мала частина цього. Дозвольте навести уявний приклад (я визнаю, що це карикатура, але, на жаль, я боюся, що це дещо правдоподібно):
Боб проводить дослідження, збираючи дані про щось чи інше. Він очікує, що дані будуть звичайно розподілятися, щільно згрупуючись навколо деякого значення, і має намір провести одноразовий тест, щоб перевірити, чи є його дані «суттєво відмінними» від деякого заздалегідь заданого значення. Після збору зразка він перевіряє, чи нормально поширюються його дані, і виявляє, що їх немає. Натомість вони не мають яскраво виражених грудочок у центрі, але відносно високі протягом заданого інтервалу, а потім відтягуються довгим лівим хвостом. Боб хвилює те, що йому слід зробити, щоб перевірити його тест. Він закінчує щось робити (наприклад, перетворення, непараметричний тест тощо), а потім повідомляє статистику тесту та p-значення.
Я сподіваюся, що це не виходить таким неприємним. Я не хочу над кимось знущатися, але думаю, що щось подібне трапляється зрідка. Якщо цей сценарій відбудеться, ми можемо погодитись, що це недостатній аналіз даних. Однак проблема полягає не в тому, що статистика тесту або значення p невірно; ми можемо стверджувати, що дані були оброблені належним чином у цьому відношенні. Я б заперечував, що проблема полягає в тому, що Боб займається тим, що Клівленд назвав "аналізом даних". Він, здається, вважає, що єдиним моментом є отримання правильного p-значення, і дуже мало думає про свої дані поза досягненням цієї мети. Він навіть міг перейти на мою пропозицію вище і повідомив про стандартизований розмір ефекту з довірчим інтервалом 95%, і це не змінило б те, що я бачу як більшу проблему (це те, що я мав на увазі, роблячи "по суті те саме "іншим способом). У цьому конкретному випадку те, що дані виглядали не так, як він очікував (тобто не було нормально), є реальною інформацією, це цікавоі дуже можливо важливо, але ця інформація по суті просто викидається. Боб не визнає цього через фокус на тестуванні значущості. На мій погляд, це справжня проблема тестування значимості.
Дозвольте звернутися до кількох інших перспектив, які були згадані, і я хочу бути зрозумілим, що я нікого не критикую.
- Часто згадується, що багато людей насправді не розуміють p-значень (наприклад, думаючи, що це ймовірність того, що нульове значення є істинним) тощо. Іноді стверджується, що, якби тільки люди використовували байєсівський підхід, ці проблеми йди геть. Я вважаю, що люди можуть підходити до аналізу даних Байєса таким чином, як настільки ж химерний і механічний. Однак я думаю, що нерозуміння значення p-значень було б менш шкідливим, якби ніхто не думав отримати р-значення.
- Існування "великих даних", як правило, не пов'язане з цим питанням. Великі дані лише дають зрозуміти, що організація аналізу даних навколо «значущості» не є корисним підходом.
- Я не вірю, що проблема полягає в тестуванні гіпотези. Якби люди хотіли лише перевірити, чи не оцінюється значення за межами інтервалу, а не, якщо воно дорівнює бальній величині, може виникнути багато однакових питань. (Знову ж, я хочу зрозуміти, я знаю, що ти не "Боб" .)
- Для запису хочу зазначити, що моя власна пропозиція з першого абзацу не стосується цього питання, як я намагався вказати.
Для мене це головне питання: те, що ми дійсно хочемо, - це принциповий спосіб думати про те, що сталося . Що це означає в будь-якій ситуації, не різати і не сушити. Як сказати це учням на уроці методів, не є ні зрозумілим, ні простим. Тестування значущості має за собою багато інерційності та традицій. У класі статистики зрозуміло, що потрібно навчати і як. Для студентів та практиків стає можливим розробити концептуальну схему розуміння матеріалу та контрольний список / блок-схему (я бачив деякі!) Для проведення аналізу. Тестування значущості може, природно, перетворитись на аналіз даних, які не піддаються, без того, щоб хтось був німим, ледачим чи поганим. У цьому проблема.