Існує певна школа думки, згідно з якою найпоширенішим підходом до статистичного тестування є "гібрид" між двома підходами: підходом Фішера та Нейманом-Пірсоном; ці два підходи, стверджує твердження, "несумісні", а отже, отриманий "гібрид" є "невідповідним мешматом". Я надам бібліографію та деякі цитати нижче, але поки що досить сказати, що про це багато написано у статті вікіпедії про тестування статистичних гіпотез . Тут, на CV, цей пункт неодноразово робив @Michael Lew (див. Тут і тут ).
Моє запитання: чому твердження про F та NP вважаються несумісними і чому гібрид вважається невідповідним? Зауважте, що я прочитав щонайменше шість антигібридних статей (див. Нижче), але все ще не розумію проблеми чи аргументу. Зауважте також, що я не пропоную обговорювати, чи F чи NP є кращим підходом; ні я не пропоную обговорювати рамки частотистських та байесівських. Натомість питання: якщо визнати, що і F, і NP є дійсними та осмисленими підходами, що так поганого в їх гібриді?
Ось як я розумію ситуацію. Підхід Фішера полягає в тому, щоб обчислити -значення і прийняти його як доказ проти нульової гіпотези. Чим менше , тим переконливіші докази. Дослідник повинен поєднувати ці докази зі своїми основними знаннями, вирішувати, чи достатньо переконливо , і діяти відповідно. (Зверніть увагу, що погляди Фішера змінювались з роками, але це, наче він, врешті-решт, сформувався.) На противагу цьому, підхід Неймана-Пірсона полягає у виборі заздалегідь, а потім у перевірці, чиp α p ≤ α; якщо так, назвіть це суттєвим і відкиньте нульову гіпотезу (тут я опускаю значну частину історії НП, яка не має значення для поточної дискусії). Дивіться також відмінну відповідь від @gung у розділі Коли використовувати рамки Фішера та Неймана-Пірсона?
Гібридний підхід полягає у обчисленні -значення, звітуванні про нього (неявно припускаючи, що чим менший, тим кращий), а також називати результати значущими, якщо (зазвичай ), і неістотні в іншому випадку. Це, мабуть, непослідовно. Як не можна робити одночасно дві дійсні речі, мене б'є.p ≤ α α = 0,05
Як особливо непослідовні антигібридисти розглядають поширену практику звітування значень як , або (або навіть ), де завжди вибирається найсильніша нерівність. Аргументом здається, що (a) достовірність доказів не може бути належним чином оцінена, оскільки точний не повідомляється, і (b) люди прагнуть інтерпретувати праворучне число в нерівності як і розглядати його як помилку типу I ставка, і це неправильно. Я не бачу тут великої проблеми. По-перше, звітування про точний , безумовно, є кращою практикою, але нікого насправді не цікавить, якщо є, наприклад, абоp < 0,05 p < 0,01 p < 0,001 p ≪ 0,0001 p α p p 0,02 0,03 ∼ 0,0001 0,05 α = 0,05 p ≠ α α , тому округлення його за шкалою журналу не так вже й погано (а переходити нижче одно не має сенсу, див. Як слід повідомляти про крихітні p-значення? ). По-друге, якщо консенсус називає все, що нижче значущим, то коефіцієнт помилок буде і , як пояснює @gung в Інтерпретації p-значення при тестуванні гіпотез . Незважаючи на те, що це потенційно заплутане питання, воно не вражає мене як більш заплутане, ніж інші питання статистичного тестування (поза гібридом). Крім того, кожен читач може мати на увазі власну улюблену під час читання гібридного паперу та власний показник помилок як наслідок.То в чому ж велика справа?
Однією з причин, які я хочу задати це питання, є те, що буквально боляче бачити, скільки статті Вікіпедії про тестування статистичної гіпотези присвячено гібридному гібриду. Слідом за Halpin & Stam, він стверджує, що винен певний Lindquist (навіть у великому скануванні його підручника із "помилками", виділеними жовтим кольором), і, звичайно, стаття wiki про самого Ліндквіста починається з того ж звинувачення. Але тоді, можливо, мені щось не вистачає.
Список літератури
Gigerenzer, 1993 р., Суперего, Его та ІД в статистичні міркування - ввели термін "гібрид" і назвали його "невідповідним мішмашем"
- Дивіться також новіші експозиції Gigerenzer et al .: напр. Mindless statistics (2004) та The Null Ritual. Що ви завжди хотіли знати про тестування значущості, але не боялися запитати (2004).
Коен, 1994, "Земля кругла" ( ) - дуже популярний документ з майже 3-кратними цитатами, здебільшого про різні питання, але прихильно цитуючи Гігерензера
Гудман, 1999, До медичної статистики на основі доказів. 1: Помилковість P значення
Hubbard & Bayarri, 2003, Плутанина щодо доказів ( 's) проти помилок ( ' s) у класичному статистичному тестуванніα - одна з найбільш красномовних праць, що сперечаються проти "гібриду"
Halpin & Stam, 2006, Індуктивна поведінка або індуктивна поведінка: підходи Фішера та Неймана-Пірсона до статистичних випробувань в психологічних дослідженнях (1940-1960) [безкоштовно після реєстрації] - звинувачує підручник Ліндквіста 1940 року у впровадженні "гібридного" підходу
@Michael Lew, 2006, Погана статистична практика у фармакології (та інших основних біомедичних дисциплінах): ти, мабуть, не знаєш Р - хороший огляд та огляд
Цитати
Гігеренцер: Те, що стало інституціоналізованим як інфекційна статистика в психології, - це не фішерська статистика. Це непослідовна мешанка деяких ідей Фішера з одного боку, а інших - Неймана та Е.С. Пірсона - з іншого. Я називаю цю суміш "гібридною логікою" статистичного висновку.
Гудман: Тестовий підхід [Неймана-Пірсона] запропонував вченим фаустівську угоду - здавалося б, автоматичний спосіб обмежити кількість помилкових висновків у перспективі, але лише відмовившись від можливості вимірювати докази [a la Fisher] та оцінювати правда з одного експерименту.
Hubbard & Bayarri: Класичне статистичне тестування - це анонімний гібрид конкуруючих та часто суперечливих підходів [...]. Зокрема, існує широке нездатність оцінювати несумісність доказового значення Фішера зі ступенем помилок типу I статистичної ортодоксальності Неймана-Пірсона. [...] Як головний приклад здивування, що виникає внаслідок [цього] змішування [...], розглянемо широко недооцінений факт, що колишня величина не суміснаα pз тестом гіпотези Неймана-Пірсона, в якому вона вбудована. [...] Наприклад, Гіббонс і Пратт [...] помилково заявили: "Повідомлення P-значення, точне чи в інтервалі, фактично дозволяє кожній людині вибрати власний рівень значущості як максимально допустиму ймовірність помилки I типу. "
Halpin & Stam: Текст Ліндквіста 1940 р. Був оригінальним джерелом гібридизації підходів Фішера та Неймана-Пірсона. [...] замість того, щоб дотримуватися будь-якої конкретної інтерпретації статистичного тестування, психологи залишаються неоднозначними щодо і, в основному, не знають про концептуальні труднощі, пов'язані з полемікою Фішера та Неймана-Пірсона.
Лью: Ми маємо гібридний підхід, який не контролює частоти помилок і не дозволяє оцінити достовірність доказів.