Чи справді "гібрид" між Фішером та Нейманом-Пірсоном підходами до статистичного тестування є справді "невідповідним мешметом"?


56

Існує певна школа думки, згідно з якою найпоширенішим підходом до статистичного тестування є "гібрид" між двома підходами: підходом Фішера та Нейманом-Пірсоном; ці два підходи, стверджує твердження, "несумісні", а отже, отриманий "гібрид" є "невідповідним мешматом". Я надам бібліографію та деякі цитати нижче, але поки що досить сказати, що про це багато написано у статті вікіпедії про тестування статистичних гіпотез . Тут, на CV, цей пункт неодноразово робив @Michael Lew (див. Тут і тут ).

Моє запитання: чому твердження про F та NP вважаються несумісними і чому гібрид вважається невідповідним? Зауважте, що я прочитав щонайменше шість антигібридних статей (див. Нижче), але все ще не розумію проблеми чи аргументу. Зауважте також, що я не пропоную обговорювати, чи F чи NP є кращим підходом; ні я не пропоную обговорювати рамки частотистських та байесівських. Натомість питання: якщо визнати, що і F, і NP є дійсними та осмисленими підходами, що так поганого в їх гібриді?


Ось як я розумію ситуацію. Підхід Фішера полягає в тому, щоб обчислити -значення і прийняти його як доказ проти нульової гіпотези. Чим менше , тим переконливіші докази. Дослідник повинен поєднувати ці докази зі своїми основними знаннями, вирішувати, чи достатньо переконливо , і діяти відповідно. (Зверніть увагу, що погляди Фішера змінювались з роками, але це, наче він, врешті-решт, сформувався.) На противагу цьому, підхід Неймана-Пірсона полягає у виборі заздалегідь, а потім у перевірці, чиp α p αppαpα; якщо так, назвіть це суттєвим і відкиньте нульову гіпотезу (тут я опускаю значну частину історії НП, яка не має значення для поточної дискусії). Дивіться також відмінну відповідь від @gung у розділі Коли використовувати рамки Фішера та Неймана-Пірсона?

Гібридний підхід полягає у обчисленні -значення, звітуванні про нього (неявно припускаючи, що чим менший, тим кращий), а також називати результати значущими, якщо (зазвичай ), і неістотні в іншому випадку. Це, мабуть, непослідовно. Як не можна робити одночасно дві дійсні речі, мене б'є.p α α = 0,05ppαα=0.05

Як особливо непослідовні антигібридисти розглядають поширену практику звітування значень як , або (або навіть ), де завжди вибирається найсильніша нерівність. Аргументом здається, що (a) достовірність доказів не може бути належним чином оцінена, оскільки точний не повідомляється, і (b) люди прагнуть інтерпретувати праворучне число в нерівності як і розглядати його як помилку типу I ставка, і це неправильно. Я не бачу тут великої проблеми. По-перше, звітування про точний , безумовно, є кращою практикою, але нікого насправді не цікавить, якщо є, наприклад, абоp < 0,05 p < 0,01 p < 0,001 p 0,0001 p α p p 0,02 0,03 0,0001 0,05 α = 0,05 p α αpp<0.05p<0.01p<0.001p0.0001pαpp0.020.03 , тому округлення його за шкалою журналу не так вже й погано (а переходити нижче одно не має сенсу, див. Як слід повідомляти про крихітні p-значення? ). По-друге, якщо консенсус називає все, що нижче значущим, то коефіцієнт помилок буде і , як пояснює @gung в Інтерпретації p-значення при тестуванні гіпотез . Незважаючи на те, що це потенційно заплутане питання, воно не вражає мене як більш заплутане, ніж інші питання статистичного тестування (поза гібридом). Крім того, кожен читач може мати на увазі власну улюблену під час читання гібридного паперу та власний показник помилок як наслідок.0.00010.05α=0.05pααТо в чому ж велика справа?

Однією з причин, які я хочу задати це питання, є те, що буквально боляче бачити, скільки статті Вікіпедії про тестування статистичної гіпотези присвячено гібридному гібриду. Слідом за Halpin & Stam, він стверджує, що винен певний Lindquist (навіть у великому скануванні його підручника із "помилками", виділеними жовтим кольором), і, звичайно, стаття wiki про самого Ліндквіста починається з того ж звинувачення. Але тоді, можливо, мені щось не вистачає.


Список літератури

Цитати

Гігеренцер: Те, що стало інституціоналізованим як інфекційна статистика в психології, - це не фішерська статистика. Це непослідовна мешанка деяких ідей Фішера з одного боку, а інших - Неймана та Е.С. Пірсона - з іншого. Я називаю цю суміш "гібридною логікою" статистичного висновку.

Гудман: Тестовий підхід [Неймана-Пірсона] запропонував вченим фаустівську угоду - здавалося б, автоматичний спосіб обмежити кількість помилкових висновків у перспективі, але лише відмовившись від можливості вимірювати докази [a la Fisher] та оцінювати правда з одного експерименту.

Hubbard & Bayarri: Класичне статистичне тестування - це анонімний гібрид конкуруючих та часто суперечливих підходів [...]. Зокрема, існує широке нездатність оцінювати несумісність доказового значення Фішера зі ступенем помилок типу I статистичної ортодоксальності Неймана-Пірсона. [...] Як головний приклад здивування, що виникає внаслідок [цього] змішування [...], розглянемо широко недооцінений факт, що колишня величина не суміснаα ppαpз тестом гіпотези Неймана-Пірсона, в якому вона вбудована. [...] Наприклад, Гіббонс і Пратт [...] помилково заявили: "Повідомлення P-значення, точне чи в інтервалі, фактично дозволяє кожній людині вибрати власний рівень значущості як максимально допустиму ймовірність помилки I типу. "

Halpin & Stam: Текст Ліндквіста 1940 р. Був оригінальним джерелом гібридизації підходів Фішера та Неймана-Пірсона. [...] замість того, щоб дотримуватися будь-якої конкретної інтерпретації статистичного тестування, психологи залишаються неоднозначними щодо і, в основному, не знають про концептуальні труднощі, пов'язані з полемікою Фішера та Неймана-Пірсона.

Лью: Ми маємо гібридний підхід, який не контролює частоти помилок і не дозволяє оцінити достовірність доказів.


+1 за це добре вивчене (навіть якщо довге) питання. Я б допоміг, можливо, продовжувати уточнювати, що саме бентежить. Чи достатньо знати, що для Фішера взагалі не існує альтернативної гіпотези, тоді як для НП світ можливостей вичерпується як нульовою, так і альтернативною? Мені здається непоєдним для мене, але на жаль, я роблю гібридну річ весь час, тому що ти не можеш уникнути, настільки вродженої вона стала.
Момо

2
@Momo: Вам питання про "що саме бентежить" - ну, заплутаною є шаленство антигібридної риторики. "Невідповідний мішмаш" - це сильні слова, тому я хотів би побачити досить погану непослідовність. Те, що ви сказали про альтернативну гіпотезу, не є для мене таким (у випадку з сортом саду альтернатива, очевидно, , і я не бачу багато місця для непослідовності), але якщо я пропускаю вашу думку, то, можливо, ви хочете надати це як відповідь. H 1 : μ 0H0:μ=0H1:μ0
Амеба каже, що повернеться до Моніки

2
Щойно прочитавши Lew (і зрозумівши, що я читав його раніше, напевно, близько 2006 року), я вважав це досить непоганим, але не думаю, що він представляє, як я використовую p-значення. Мої рівні значущості - в рідкісних випадках я взагалі використовую тестування гіпотез * - завжди передують, і там, де я маю контроль над розміром вибірки, після врахування потужності, деякого врахування вартості двох типів помилок і так далі - по суті Неймана-Пірсона. Я все ще цитую p-значення, але не в рамках підходу Фішера .... (
ctd

2
(ctd) ... * (Я часто відволікаю людей від тестування гіпотез - тому часто їх актуальні питання пов'язані з вимірюванням ефектів, і на них краще відповідати, будуючи інтервали). Конкретна проблема, яку Лев поставив під час "гібридної" процедури, стосується того, чого я не роблю, і, як правило, застерігає людей від того, щоб вони робили. Якщо люди дійсно виконують поєднання підходів, які він має на увазі, папір здається прекрасною. Раніше обговорення значення p-значень та історія підходів здається відмінною.
Glen_b

1
@Glen_b, Історичний огляд Лева дуже приємний і зрозумілий, я повністю згоден. Моя проблема полягає саме в гібридному питанні (розділ "Який підхід найбільше використовується?"). Звичайно, є люди, які роблять те, що він там описує, тобто повідомляють про найсильніші з p <.001, <.01 або <.05; Я це бачу весь час у нейронауці. Розглянемо один із випадків, коли ти використовуєш тестування. Ви вибираєте, наприклад, альфа = .05, і дотримуєтесь рамки NP. Коли ви отримаєте p = .00011, чи буде ваша впевненість щодо H1 і ваш вибір формулювань відрізнятися від того, коли ви отримаєте p = .049? Якщо так, то це гібрид! Якщо ні, то як?
амеба каже, що повернеться Моніка

Відповіді:


16

Я вважаю, що статті, статті, повідомлення тощо, які ви старанно збирали, містять достатню кількість інформації та аналізу того, де і чому два підходи відрізняються. Але бути іншим не означає бути несумісним .

Проблема з "гібридом" полягає в тому, що це гібрид, а не синтез , і саме тому багато хто трактується як гібрид , якщо вибачте, що грає слова.
Не будучи синтезом, він не намагається поєднати відмінності двох підходів, або створити єдиний і внутрішньо послідовний підхід, або зберегти обидва підходи в науковому арсеналі як додаткові альтернативи, щоб ефективніше боротися з дуже складними світ, який ми намагаємось проаналізувати за допомогою статистики (на щастя, це останнє - це те, що, здається, відбувається з іншою великою громадянською війною на місцях, часто-байєсівською).

Невдоволення цим, я вважаю, випливає з того, що він справді створив непорозуміння у застосуванні статистичних інструментів та інтерпретації статистичних результатів , в основному, вченими, які не є статистиками , непорозуміннями, які можуть мати дуже серйозні та згубні наслідки (думка про поле медицини допомагає надати питання належному драматичному тону). Це неправильне застосування, на мою думку, сприймається широко як факт - і в цьому сенсі "антигібридна" точка зору можна вважати широко розповсюдженою (принаймні через наслідки, які вона мала, якщо не для її методологічних питань).

Я розглядаю еволюцію цього питання як історичну аварію (але у мене немає гіпотези значення або регіону відхилення) через нещасний бій між засновниками. Фішер та Нейман / Пірсон десятиліттями вели жорстоку та публічну боротьбу за свої підходи. Це створило враження, що тут справа дихотомна: один підхід повинен бути "правильним", а другий повинен бути "неправильним".p

Я вважаю, гібрид з'явився з усвідомлення того, що такої простої відповіді не існує, і що існували явища в реальному світі, до яких один підхід краще підходить, ніж інший (див. Цей пост для такого прикладу, на думку мене в принаймні, де рибальський підхід здається більш підходящим). Але замість того, щоб утримувати двох «окремо і готових до дії», вони були досить зайвими.

Я пропоную джерело, яке узагальнює цей "доповнюючий альтернативний" підхід: Spanos, A. (1999). Теорія ймовірностей та статистичний висновок: економетричне моделювання з даними спостережень. Cambridge University Press. , гол. 14 , особливо розділ 14.5, де автор, формально та виразно представивши два підходи, в змозі чітко вказати на їх відмінності, а також стверджує, що вони можуть розглядатися як додаткові альтернативи.


6
(+1) Я ціную ваші коментарі і погоджуюся з багатьма з них. Але я не впевнений, що саме ви маєте на увазі, коли ви говорите, що гібрид "створив непорозуміння" (і, тим більше, що це "широко сприймається як факт"). Чи можете ви навести кілька прикладів? Щоб бути нападом на гібрида, це повинні бути приклади непорозумінь, які не виникають у підходах F або NP. Ви маєте на увазі потенційну плутанину між та яку я згадував у своєму запитанні, чи на щось інше? Окрім цього, я вже читаю розділ 14.5 у Спаносі, дякую. αpα
амеба каже, що повернеться до Моніки

6
Очевидне питання - це справді питання . Більш тонким і, я вважаю, важливішим є той факт, що гібрид змішує дослідницький аромат Фішера (який більше залишає питання вирішення дослідника), з більш формальним підходом НП. Тож дослідники підходили до цього питання в риболовському дусі, але потім заявляли про сильну вагу "підкидання / прийняття" ваги НП, що в принципі надає більшої достовірності висновкам. ПОДРОБИТИСЯpα
Алекос Пападопулос

6
ЗНАЧЕННЯ Для мене це "гібридний підхід" і "їсти свій торт". Наприклад, підхід NP без розрахунків потужностей випробувань повинен бути немислимим, але весь час ми бачимо тест, поставлений у рамках NP, але про розрахунки потужності не згадуємо.
Алекос Пападопулос

Без теми, але ... Оскільки ви цитуєте Аріса Спаноса, мені цікаво, чи зможете ви відповісти на це питання щодо його методології? (Я одного разу поставив це питання безпосередньо Арісу Спаносу, і він люб’язно приклав зусилля, щоб відповісти на нього. На жаль, його відповідь була тією ж мовою, що і його документи, тому це мені не дуже допомогло.)
Річард Харді,

13

Моє власне питання щодо того, що в гібридному (тобто прийнятому) підході немає нічого особливо непоганого. Але оскільки я не був впевнений, чи не можу я зрозуміти обґрунтованість аргументів, викладених у антигібридних документах, я був радий виявити дискусію, опубліковану разом із цим документом:

На жаль, дві відповіді, опубліковані як дискусія, не були відформатовані як окремі статті, тому їх не можна належним чином цитувати. Але я хотів би процитувати їх обох:

Берк: Тема розділів 2 і 3, здається, полягає в тому, що Фішеру не сподобалось те, що робили Нейман і Пірсон, а Нейману не сподобалось те, що робив Фішер, і тому ми не повинні робити нічого, що поєднує два підходи. Тут немає уникнення приміщення, але міркування уникають мене.

Карлтон:автори твердо наполягають, що найбільше плутанини випливає із шлюбу фішерських та нейман-персонівських ідей, що такий шлюб є ​​катастрофічною помилкою з боку сучасних статистиків [...] [T] він, схоже, має намір встановити, що значення P і Помилки типу I не можуть співіснувати в одному Всесвіті. Незрозуміло, чи дали автори якусь істотну причину, чому ми не можемо вимовити "p значення" та "помилка типу I" в одному реченні. [...] «Факт» їх несумісності [F і NP] стає для мене дивовижною новиною, оскільки я впевнений, що це стосується тисяч кваліфікованих статистиків, які читають цю статтю. Автори навіть, начебто, припускають, що серед причин, коли статистики повинні зараз розлучитися з цими двома ідеями, є те, що Фішер та Нейман не були дуже люблять один одного (або один одного). s філософії тестування). Я завжди розглядав нашу сучасну практику, яка інтегрує філософію Фішера та Неймана і дозволяє обговорювати як значення P, так і помилки типу I - хоча це, звичайно, не паралельно - як один з найбільших перемог нашої дисципліни.

Обидві відповіді дуже варті прочитання. Існує також репліка початкових автори, які не звучать переконливо для мене взагалі .


1
Одна річ співіснувати, інша вважати іншою. Але дійсно, цей напрямок антигібридного підходу відповідає духу "не може бути синтезу", з чим я категорично не згоден. Але я не бачу нинішній гібрид як вдалий шлюб.
Алекос Пападопулос

2
@Livid, дякую за ваші коментарі, це цікаво, але я хотів би утриматися від подальшого обговорення тут. Я б закликав вас опублікувати нову відповідь, якщо хочете. Але якщо ви вирішили це зробити, постарайтеся зосередитись на головному питанні, а саме: що так погано в «гібриді», порівняно як з Фішером, так і з NP. Ви, здається, ненавидите весь підхід тестування значимості, "нульову гіпотезу" тощо, але це не про це!
Амеба каже: Відновити Моніку

1
@Livid: Хммм, чи можете ви насправді уточнити, чому ви говорите, що це відмінна характеристика гібриду? Яка буде нуль у чистому Фішері чи в чистому NP? Скажімо, у вас є дві групи і ви хочете перевірити на значну різницю ("нульовий нуль"). Чи не можна підходити до цієї ситуації за допомогою всіх трьох підходів: чистого Фішера, чистого NP та гібридного?
Амеба каже: Відновити Моніку

2
@Livid, я розумію ваші аргументи проти нульового нуля, я просто вважаю, що це питання є ортогональним щодо гібридного питання. Я маю освіжати антигібридні папери на пам'ять, але, наскільки я пам’ятаю, їхня критика гібриду зовсім не зосереджена на нульовому нулі. Натомість мова йде про поєднання Фішера та NP. Знову ж таки, якщо ви не згодні з цим, будь ласка, подумайте над публікацією відповіді; на даний момент, залишимо це на цьому.
амеба каже, що повернеться до Моніки

2
Примітка до себе: я мав би включити до цієї відповіді деякі цитати з цієї статті: Леманн 1992, Фішер, Нейман-Пірсон теорії тестування гіпотез: одна теорія чи дві?
Амеба каже: Відновити Моніку

8

Я побоююся, що для реальної відповіді на це відмінне запитання потрібен повноцінний папір. Однак тут є кілька пунктів, яких немає ні в питанні, ні в поточних відповідях.

  1. Коефіцієнт помилок "належить" до процедури, але докази "належать" до експериментальних результатів. Таким чином, при багатоступеневих процедурах з послідовними правилами зупинки можна отримати результат з дуже вагомими доказами проти нульової гіпотези, але не суттєвим результатом тестування гіпотези. Це можна вважати сильною несумісністю.

  2. Якщо вас цікавлять несумісності, вас повинні зацікавити основні філософії. Філософська складність пов'язана з вибором між дотриманням принципу ймовірності та відповідності принципу повторного відбору проб. LP говорить приблизно, що, даючи статистичну модель, дані в наборі даних, що відповідають параметру, що цікавить, повністю містяться у відповідній функції ймовірності. В RSP кажуть, що слід віддавати перевагу тестам, які дають коефіцієнти помилок у довгостроковій перспективі, що дорівнюють їх номінальним значенням.


3
Монографія Дж. Бергера та Р.Л. Вулперта "Принцип ймовірності" (2-е видання 1988 р.) - це спокійне, врівноважене та гарне опис точки 2. На мою думку.
Алекос Пападопулос

5
Бергер і Волперт - це справді хороша експозиція, і авторитетна. Однак я віддаю перевагу більш практично спрямованій та менш математичній книзі AWF Edwards "Вірогідність". Я все ще в друку, думаю. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ
Michael Lew

2
@MichaelLew пояснив, що допустиме використання значень p - це підсумок розміру ефекту. Він зробив велику справу, написавши цю статтю: arxiv.org/abs/1311.0081
Livid

@Livid Цей документ цікавий, але для нового читача варто відзначити наступне: головна ідея, що p значення 'індекс' (імовірно: знаходяться в одному співвідношенні з) функціями вірогідності, як правило, вважається помилковим, оскільки є випадки, коли однакові ймовірності відповідають різним р-значенням залежно від схеми вибірки. Це питання трохи обговорюється в роботі, але індексація - це дуже незвична позиція (яка, звичайно, не обов'язково робить її помилковою).
кон'югатор

8

Часто помітний (і нібито прийнятий) союз (або краще: "гібрид") між двома підходами полягає в наступному:

  1. Встановити попередньо визначений рівень (0,05 сказати)α
  2. Потім перевірити свою гіпотезу, наприклад, протиH 1 : μ 0Ho:μ=0H1:μ0
  3. Вкажіть значення p та сформулюйте своє рішення на основі рівня :α

    Якщо отримане значення p нижче < , можна сказатиα

    • "Я відхиляю " абоHo
    • "Я відхиляю " на користь "абоH 1HoH1
    • "Я на впевнений, що "H 1100%(1α)H1

    Якщо значення р недостатньо мало, ви б сказали

    • "Я не можу відхилити " абоHo
    • "Я не можу відхилити на користь "H 1HoH1

Тут аспектами Неймана-Пірсона є:

  • Ви щось вирішуєте
  • У вас є альтернативна гіпотеза (хоча - це навпаки )Ho
  • Ви знаєте рівень помилок I типу

Рибальські аспекти:

  • Ви вказуєте значення p. Будь-який читач, таким чином, має можливість використовувати свій рівень (наприклад, суворо виправляючи для багаторазового тестування) для прийняття рішення
  • В основному, потрібна лише нулева гіпотеза, оскільки альтернатива якраз навпаки
  • Ви не знаєте рівня помилок II типу. (Але ви можете одразу отримати його для конкретних значень )μ0

ADD-ON

Хоча добре бути в курсі дискусії про філософські проблеми Фішера, НП чи цього гібридного підходу (як цього навчили майже релігійні шаленства), у статистиці є набагато більш актуальні питання, з якими можна боротися:

  • Задавати неінформативні запитання (наприклад, двійкові питання "так / ні" замість кількісних "скільки" питань, тобто використовувати тести замість довірчих інтервалів)
  • Методи аналізу даних, що призводять до упереджених результатів (поетапна регресія, припущення тестування тощо)
  • Вибір неправильних тестів чи методів
  • Неправильне тлумачення результатів
  • Використання класичної статистики для випадкових вибірок

1
(+1) Це хороший опис гібрида (і чому саме він гібридний), але ви прямо не сказали, яка ваша оцінка його. Чи погоджуєтесь ви, що те, що ви описали, - це "непоєднаний мішмаш"? Якщо так, то чому? Або ви вважаєте, що це розумна процедура? Якщо так, то чи мають люди, які стверджують, що це невідповідність, або вони просто помиляються?
Амеба каже: Відновити Моніку

1
Я часто перевіряю гіпотези саме таким чином ... Але є й інші міш-пюре, які я б не прийняв (наприклад, не показуючи значення p вище ) тощо.α
Michael M,

4

визнаючи, що і F, і NP є дійсними та змістовними підходами, що так поганого в їх гібриді?

Коротка відповідь: використання нульової (без різниці, ніякої кореляції) нульової гіпотези, незалежно від контексту. Все інше - це "неправильне використання" людьми, які створили для себе міфи про те, чого можна досягти цим процесом. Міфи виникають у людей, які намагаються узгодити (іноді доцільно) використання довіри до авторитету та евристики консенсусу з непридатністю процедури до своєї проблеми.

Наскільки мені відомо, Герд Гігеренцер придумав термін "гібрид":

Я запитав автора [видатного автора статистичного підручника, книга якого вийшла через багато видань, і чиє ім'я не має значення], чому він видалив главу про Байєса, а також про невинний вирок з усіх наступних видань. "Що змусило вас представити статистику так, ніби вона мала лише один молоток, а не інструментарій? Чому ви змішали теорії Фішера та Неймана-Пірсона з непослідовними гібридами, які кожен порядний статистик відкине?

На його честь, я повинен сказати, що автор не намагався заперечити, що він породив ілюзію, що існує лише один інструмент. Але він дав мені знати, хто винен у цьому. Винуватців було три: його колеги-дослідники, адміністрація університету та його видавець. Більшість дослідників, стверджував він, насправді не зацікавлені в статистичному мисленні, а лише в тому, як опублікувати їхні статті [...]

Нульовий ритуал:

  1. Встановіть статистичну нульову гіпотезу про "відсутність середньої різниці" або "нульову кореляцію". Не вказуйте прогнози вашої дослідницької гіпотези або будь-яких альтернативних предметних гіпотез.

  2. Використовуйте 5% як умову для відхилення нуля. Якщо це суттєво, прийміть вашу гіпотезу дослідження. Повідомте про результат як , , або (залежно від отриманої величини).p < 0,01 p < 0,001 pp<0.05p<0.01p<0.001p

  3. Завжди виконуйте цю процедуру.

Gigerenzer, G (листопад 2004 р.). " Бездумна статистика ". Журнал соціально-економічної науки 33 (5): 587–606. doi: 10.1016 / j.socec.2004.09.033.

Редагувати: І ми завжди мусимо згадати, оскільки "гібрид" настільки слизький і неправильно визначений, що використання нульового нуля для отримання p-значення цілком чудово, як спосіб порівняння розмірів ефекту за різними розмірами вибірки. Саме аспект "тесту" вводить проблему.

Редагувати 2: @amoeba Р-значення може бути чудовим як підсумкова статистика, в цьому випадку нульова гіпотеза є лише довільною орієнтиром: http://arxiv.org/abs/1311.0081 . Однак, як тільки ви починаєте намагатися зробити висновок або прийняти рішення (тобто "перевірити" нульову гіпотезу), він перестає мати сенс. Порівнюючи приклад двох груп, ми хочемо знати, чим відрізняються дві групи, а також можливі різні пояснення різниць такої величини та типу.

Значення р може бути використане як підсумкова статистика, яка говорить нам про величину різниці. Однак використання його для "спростування / відхилення" нульової різниці не відповідає меті, яку я не можу сказати. Крім того, я вважаю, що багато з цих проектів дослідження, які порівнюють середні виміри живих істот в одній часовій точці, неправильно керуються. Потрібно спостерігати, як окремі екземпляри системи змінюються з часом, а потім придумати процес, який пояснює спостережувану закономірність (включаючи групові відмінності).


2
+1, дякую за вашу відповідь та за посилання. Здається, я не прочитав цього конкретного документа, я погляну. Як я вже говорив, у мене було враження, що "нульовий нуль" - це питання, ортогональне питання "гібриду", але я думаю, що я повинен перечитати статті Гігерензера, щоб перевірити це. Спробуємо знайти час у наступні дні. Крім цього: чи могли б ви уточнити свій останній абзац ("редагувати")? Чи правильно я зрозумів, що ти мав на увазі, що мати нульову нуль при порівнянні двох розмірів ефекту нормально, але мати нульову нуль при порівнянні розміру ефекту з нулем - це не нормально?
Амеба каже: Відновити Моніку

1

Я бачу, що ті, хто має більше досвіду, ніж я, дали відповіді, але думаю, що моя відповідь має потенціал додати щось додаткове, тому я запропоную це як перспектива іншого мирянина.

Чи гібридний підхід є неузгодженим?   Я б сказав, що це залежить від того, чи закінчиться дослідник невідповідним правилам, з яких вони почали: зокрема, так / ні правило, яке вступає в гру з встановленням значення альфа.

Невідповідні

Почніть з Неймана-Пірсона. Дослідник встановлює альфа = 0,05, проводить експеримент, обчислює p = 0,052. Дослідник розглядає це значення p і, використовуючи фішерський умовивід (часто неявно), вважає результат недостатньо несумісним з гіпотезою тесту про те, що вони все ще будуть стверджувати, що "щось" відбувається. Результат якимось чином "досить хороший", хоча значення р було більше, ніж альфа-значення. Часто це поєднується з такою мовою, як "майже значна" чи "тенденція до значущості", або з деякими формулюваннями в цих напрямках.

Однак встановлення альфа-значення перед проведенням експерименту означає, що обрали підхід індуктивної поведінки Неймана-Пірсона. Вибір ігнорувати це значення альфа після обчислення р-значення, і, таким чином, стверджувати, що щось все-таки є якось цікавим, підриває весь підхід, з якого починався. Якщо дослідник починає шлях А (Неймана-Пірсона), але потім переходить на інший шлях (Фішер), як тільки їм не сподобається шлях, по якому вони йдуть, я вважаю це невідповідним. Вони не узгоджуються з (маються на увазі) правилами, з яких вони почали.

Узгоджений (можливо)

Почніть з NP. Дослідник встановлює альфа = 0,05, проводить експеримент, обчислює p = 0,0014. Дослідник зауважує, що p <альфа, і таким чином відкидає гіпотезу тесту (як правило, ефект недійсний) і приймає альтернативну гіпотезу (ефект реальний). У цей момент дослідник, крім того, вирішивши трактувати результат як реальний ефект (NP), вирішує зробити висновок (Фішер), що експеримент дає дуже вагомі докази того, що ефект є реальним. Вони додали нюанс підходу, з якого почали, але не суперечили встановленим правилам, вибравши значення альфа на початку.

Підсумок

Якщо починати з вибору значення альфа, то він вирішив пройти шлях Неймана-Пірсона та дотримуватися правил такого підходу. Якщо вони, в якийсь момент, порушують ці правила, використовуючи фішерський умовивід як виправдання, тоді вони діяли непослідовно / непослідовно.

Я думаю, можна було б піти на крок далі і заявити, що, оскільки можна використовувати гібрид непослідовно, тому підхід за своєю суттю є некогерентним, але це, здається, заглиблюється у філософські аспекти, які я не вважаю кваліфікованими навіть запропонуйте думку щодо.

Підказка капелюха Майклу Лью. Стаття 2006 року допомогла мені зрозуміти ці питання краще, ніж будь-який інший ресурс.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.