У чому полягає відмінність між статистичним тестом «Нульова гіпотеза» та будь-яким іншим тестом?

Нещодавня гаряча тема обговорення стосується журналу, що забороняє використовувати "статистичні тестові процедури з нульовою гіпотезою" (NHSTP) "зі статей, поданих до журналу. Я бачу цей термін, який використовують деякі письменники, але я не розумію, яку різницю вони намагаються зробити. Чи відрізняється NHSTP від "перевірки гіпотези" чи "тесту на значимість"?

hypothesis-testing statistical-significance terminology

— Расс Лент
джерело

Скорочення, яке дещо частіше використовується, є NHST (без кінця P). Обидві акроніми здаються пейоративними термінами, якими користуються письменники, які його ненавидять (далі в контексті такої полеміки). Ви можете переглянути пошук вченого з google для NHST + null (1670 результатів, порівняно лише 145 для NHSTP + null) - це все про проблеми та проблеми з цим. Ще один споріднений пейоративний термін - "нульовий ритуал". Все це означає те, що ви думаєте, що це означає, але вимовляється з сильною огидою!

— амеба

Існують тести, які в принципі сильно відрізняються від звичайних NHST, наприклад, тести на еквівалентність, хоча механічно (але не дивно) вони використовують тісно пов'язані рамки. Однак, я думаю, редактор відповідного журналу, ймовірно, також заперечував би проти них.

— Glen_b -Встановіть Моніку

Пов'язане (але не дублікат): Яка різниця між "тестуванням гіпотези" та "тестом на значимість"? Також я мушу зазначити, що редактори цього журналу явно не намагаються робити різницю між будь-яким із цього! Вони забороняють будь-яку гіпотезу / значення / будь-яке тестування, будь то Фішер, Нейман-Пірсон або гібрид. Відмінність проводиться лише в контексті священної війни Фішера проти Неймана-Пірсона (проти гібридної), що не стосується конкретної заборони журналу.

— амеба

Отже, @Livid, ви говорите, що "NHST" відноситься до того, як зазвичай застосовуються статистичні тести на практиці, на відміну від парадигм Фішера та NP? Я здогадуюсь, що, якщо це, в свою чергу, передбачає рутинне і недумне поворот кривошипа, то я погоджуюся, що це пейоративний термін.

— Russ Lenth

@rvl Ось стаття (+ коментар), про яку я думав раніше: Точність статистичного значення: Обгрунтування, обгрунтованість та корисність. Сіу Л. Чау. НАВЧАЛЬНІ НАВЧАЛЬНІ І НАВЧАЛЬНІ НАУКИ (1998) 21, 169–239

— Livid

Довідкова інформація : редакційний питання це один з основних і прикладної соціальної психології , журнал з коефіцієнтом в 2015 зіткнення 1,168, тобто, не сильно цитованим.

Re: ОП питання , тобто чи NHSTP чимось відрізняється від "перевірки гіпотези" чи "тесту на значимість"? Відповідні редакційні заяви є

1) "...the null hypothesis significance testing procedure (NHSTP)  is invalid..." [Sic, with alpha = 0.05]
2) "...authors will have to remove all vestiges of the NHSTP (p-values, t-values, F-values, statements about ‘‘significant’’ differences or lack thereof, and so on)."
3) "...confidence intervals [Sic, 95%] also are banned from BASP."
4) "...Bayesian procedures are neither required nor banned from BASP." [Sic, depends on which ones, they are either banned or not.]
5) "Are any inferential statistical procedures required?...No..."

Запропоновані для цього мотивації частково "... $p<.05$ смужка занадто проста для проходження і іноді слугує приводом для дослідження нижчої якості. Ми сподіваємось і передбачаємо, що заборона NHSTP матиме наслідком підвищення якості поданих рукописів, звільняючи авторів від стислій структурі мислення NHSTP, тим самим усуваючи важливу перешкоду для творчого мислення ".

Відповідь OP: Ці редактори, ймовірно, стверджують, що тест на важливість часто є неправильним тестом гіпотези. Наприклад, вони заявляють, що "... байєсовські пропозиції, які принаймні дещо обходять лаплакійське припущення [Sic, я не знаю нічого апріорі ] ... [таке, що] можуть бути навіть випадки, коли є вагомі підстави вважати, що цифри дійсно існують ... "Це частково стосується аргументу Фішера проти Неймана та Пірсона, про який вказував @Livid вище, і щодо якого редакція буде стояти на стороні Фішера.

Обговорення: Я твердо вірую в інтелектуальну смиренність як на фундаментальний та неодмінний принцип наукового методу. Якщо мені, як досліднику, не дозволено виходити з початкової передумови, в якій не віриться вся попередня теорія, я втрачу всю свою здатність досліджувати дані з творчим та відкритим розумом. Передумова, що вся чисельна обробка повинна бути абсолютною істиною, - це піднесеність, піднесеність. Єдина правда - це дані, і я смиренно перефразую Коробкузаявляючи, що всі моделі є помилковими, особливо і, безумовно, ті, які припускають, що будь-яка істина виникає з усього, що не є ідентично самими даними. Це не означає, що мені доводиться вибирати між Фішером та Нейманом / Пірсоном, скоріше, що я твердо вірю, що жодна передумова не приймається самотужки, а скоріше вивчаю речі, поки мої гіпотези не будуть підтримані та / або відхилені до самовідповідності ансамблю. В якості критерію може бути використана лише самоузгодженість, оскільки жоден аналіз не може виявити абсолютну істину.

Мій спосіб робити не для всіх. Багато хто вважає за краще планувати тестування в жорсткій контрольованій конструкції експерименту, яку я б назвав «зверху вниз». Однак контрольовані експерименти неефективні для пошуку даних, розпізнавання образів та створення гіпотез. Вони корисні для тестування вузьких питань, і саме тоді може виникнути суперечка щодо NHSTP. Без підтвердження доказів, наприклад, ціла структура неузгодженості, на яку можна покластися, будь-яка перевірка піддається критиці. Це може розглядатися як Бонферроні в зворотному порядку; якщо кілька тестів призводять до неминуче самовідповідного ансамблю, шанс виникнення ансамблю лише випадково зменшується. У плануванні експериментів з психології дурниці про невживання $p<0.05$ пояснюється тим, що також не перевіряються всі наслідки будь-якого конкретного результату тесту, і якщо ви не можете допустити помилки типу I $0.05$ оскільки експериментальна конструкція настільки жорстка, обмежена і вузька, тоді використовуйте $0.001$ . Однак заборонити той чи інший статистичний метод, оскільки він використовується бездумно і що бездумна робота проходить перегляд при перегляді просто означає, що редактори не ідентифікують роботу низької якості перед тим, як погодитись переглянути її, і не звертаються до кваліфікованих рецензентів. Безумовно, не можна встановити обґрунтовану судимість, грунтуючись на одній непрямій обставині. Швидше, ансамбль непрямих доказів призводить до розумного переконання. Усунення цілої категорії доказів, оскільки воно є непрямим , не покращить зміст журналу.

— Карл
джерело

"... як фундаментальний і неодмінний орендар наукового методу ..." - Я очікую, що ви маєте на увазі принцип, а не орендар .

— Glen_b -Встановіть Моніку

@Glen_b Je tiens à vous remercier . Я мав би знати краще, але сподіваюся, що все одно не так. Ерго , для решти, якісь думки?

— Карл