Яка з них є нульовою гіпотезою? Конфлікт між теорією науки, логікою та статистикою?


20

У мене виникають труднощі з розумінням основної логіки при встановленні нульової гіпотези . У цій відповіді очевидно загальновизнане твердження зазначається, що нульова гіпотеза - це гіпотеза, що ефекту не буде, все залишається те саме, тобто нічого нового під сонцем, так би мовити.

Альтернативна гіпотеза - це те, що ви намагаєтесь довести, що, наприклад, новий препарат виконує свої обіцянки.

Тепер, виходячи з теорії науки та загальної логіки, ми знаємо, що ми можемо лише підробляти пропозиції, ми не можемо чогось довести (жодна кількість білих лебедів не може довести, що всі лебеді білі, але один чорний лебідь може спростувати це). Ось чому ми намагаємось спростувати нульову гіпотезу, що не рівнозначно доказуванню альтернативної гіпотези - і саме тут починається мій скептицизм - я наведу простий приклад:

Скажімо, я хочу дізнатися, яка тварина за завісою. На жаль, я не можу безпосередньо спостерігати за твариною, але у мене є тест, який дає мені кількість ніг цієї тварини. Тепер у мене є такі логічні міркування:

Якщо тварина собака, то у неї буде 4 ноги.

Якщо я проведу тест і з’ясую, що у нього 4 ноги, це не є доказом того, що це собака (це може бути кінь, носоріг або будь-яка інша чотиринога тварина). Але якщо я дізнаюся, що у нього немає 4 ніг, це певний доказ того, що вона не може бути собакою (якщо припустити здорову тварину).

У перекладі на ефективність наркотиків я хочу з’ясувати, чи ефективний препарат за завісою. Єдине, що я отримаю - це число, яке дає мені ефект. Якщо ефект позитивний, нічого не доведено (4 ноги). Якщо ефекту немає, я спростовую ефективність препарату.

Говорячи про все це, я думаю - всупереч загальній мудрості - повинна бути єдиною справедливою нульова гіпотеза

Препарат ефективний (тобто: якщо препарат ефективний, ви побачите ефект).

бо це єдине, що я можу спростувати - до наступного раунду, де я намагаюся бути більш конкретним тощо. Тож саме нульова гіпотеза констатує ефект, а альтернативна гіпотеза є типовою ( без ефекту ).

Чому так здається, що статистичні тести мають зворотній характер?

PS : Ви навіть не можете заперечувати вищезазначені гіпотези, щоб отримати дійсну еквівалентну гіпотезу, тому ви не можете сказати "Препарат не ефективний" як нульову гіпотезу, оскільки єдиною логічно еквівалентною формою буде "якщо ви не бачите ефекту, препарат не буде ефективний ", який не приводить вас нікуди, тому що зараз висновок - це те, що ви хочете дізнатися!

PPS : Просто для роз’яснення після прочитання відповідей досі: Якщо ви приймаєте наукову теорію, що ви можете лише підробляти твердження, але не доводити їх, єдине, що логічно відповідає, - це обрати нульову гіпотезу як нову теорію - що потім може бути підроблений. Тому що якщо ви фальсифікуєте статус-кво, ви залишаєтеся порожніми (статус-кво спростується, але нова теорія далеко не доведена!). І якщо ви не зможете підробити це, ви теж не в кращому становищі.


3
Підказка: "Препарат ефективний" не був достатньо кількісний, щоб бути науковим або статистичним твердженням. Як ви збираєтеся зробити це кількісним?
whuber

1
@whuber: Це найменша з моїх проблем: Скажіть, що, наприклад, рівень крові знижується на 10%. Я стверджую, що це повинна бути нульова гіпотеза - альтернативна гіпотеза - «Нічого не відбувається».
vonjd

9
Навпаки, це суть питання. Цілком чудово в статистиці виставити нуль, який говорить, що ефект становить -10%. Ваш експеримент зможе відкинути його, якщо він дасть достатньо вагомих доказів протилежного. Зауважте, що (забороняючи надзвичайні обчислювальні та концептуальні махінації), ви можете перевірити лише одну подібну гіпотезу за експеримент. Зауважте також, що це рідкісний експериментатор, який так точно знає, який буде розмір ефекту (але все ж відчуває потребу перевірити його!).
whuber

3
Що ж, на практиці при випробуваннях на наркотики нульове значення зазвичай розглядають як "препарат не є більш ефективним, ніж сучасне лікування", а альтернативою є "препарат є більш ефективним, ніж сучасне лікування". Це, до речі, має вбудований ефект. При такому формулюванні доказ для ефективності препарату може відхилити нуль. Після заміни гіпотез докази ефективності просто відштовхують від відкидання твердження про те, що препарат хороший. У першому випадку тягар доказування набагато суворіший.
whuber

1
@vonjd: Ви говорите: "Якщо ви фальсифікуєте статус-кво, ви залишаєтеся порожніми руками". Неправильно. Якщо ми робили якісні судження "собака" / "не собака", то правда, що надання доказів "не собака" не є особливо вагомим доказом для "собаки". Однак у цьому значення кількісних речей. Якщо я надаю докази "не 0", це дає хороші докази того, що значення є чимось іншим, ніж 0. Якщо ви стурбовані тим, що надає однакові докази для хорошого ефекту та поганого ефекту, використовуйте тест з однохвостими ознаками.
russellpierce

Відповіді:


12

У статистиці є тести на еквівалентність, а також більш поширений тест Null і вирішують, чи достатньо доказів проти цього. Тест на еквівалентність повертає це на голову і стверджує, що ефекти різні, як Нульові, і ми визначаємо, чи є достатньо доказів проти цієї Нулі.

Мені не зрозуміло на вашому прикладі наркотиків. Якщо відповідь є значенням / показником ефекту, то ефект 0 вказує на неефективний. Можна було б встановити це як Недійсне та оцінити докази проти цього. Якщо ефект досить відрізняється від нуля, ми б зробили висновок, що гіпотеза про неефективність суперечить даним. Двохсхилий тест зараховував би досить негативні значення ефекту як доказ проти Нуля. Більш цікавим випробуванням може стати односхилий тест, ефект позитивний і досить відмінний від нуля.

Якщо ви хочете перевірити, чи ефект дорівнює 0, тоді нам потрібно перегорнути це і використати тест на еквівалентність, коли H0 - ефект, не дорівнює нулю, а альтернатива - H1 = ефект = 0. Це оцінили б докази проти думки, що ефект відрізнявся від 0.


9
Частина проблеми тут полягає в тому, що, IIRC, причина, коли ми вибираємо відсутність ефекту як Null, полягає в тому, що параметр цього ефекту відомий, він є 0. Якщо ви хочете перетворити це і мати якийсь ненульовий ефект як Null, нам би потрібно було заздалегідь знати, яке значення цього параметра було для всієї сукупності, і якби ми знали значення параметра для населення не було б сенсу тестувати.
Відновіть Моніку - Г. Сімпсон

Ну, мабуть, у нас виникне та сама проблема з альтернативною гіпотезою (нам також не відомий параметр). Отже, моє питання: Чому б не поміняти обох? Це логічно здається більш послідовним.
vonjd

Я дозволю іншим коментувати тести на еквівалентність. Вони не те саме, що просто поміняти гіпотези в стандартних тестах, але я не такий знайомий з цими ідеями. Я не думаю, що ви правильні, що тести на еквівалентність страждають від проблеми, про яку я згадую в коментарях. Вони сформульовані з зовсім іншого теоретичного погляду.
Відновіть Моніку - Г. Сімпсон

5

Я думаю, що це ще один випадок, коли частоталістична статистика не може дати прямої відповіді на запитання, яке ви насправді хочете задати, і тому відповідає на (не так) тонко інше питання, і це легко неправильно трактувати як прямий відповідь на питання, яке ви насправді хотіли задати.

Ми хотіли б запитати насправді про те, що це ймовірність того, що альтернативна гіпотеза є істинною (або, напевно, наскільки це більш вірна правда, ніж нульова гіпотеза). Однак частістський аналіз принципово не може відповісти на це запитання, оскільки для частолістської ймовірності є частота довгого запуску, і в цьому випадку нас цікавить істинність певної гіпотези, яка не має довгострокової частоти - це або правда чи ні. З іншого боку, байєсів може відповісти на це запитання безпосередньо, оскільки для Байесіанської ймовірності є мірою правдоподібності певного твердження, тому в байєсівському аналізі цілком доречно присвоювати вірогідність істинності певної гіпотези.

Те, як ветеринари мають справу з певними подіями, полягає у тому, щоб ставитися до них як до вибірки з певної (можливо, вигаданої) популяції та робити заяву про це населення замість заяви про конкретний зразок. Наприклад, якщо ви хочете дізнатись про ймовірність того, що певна монета є упередженою, після спостереження за N переворотами та спостереженнями за головами та хвостами, частофілістський аналіз не може відповісти на це запитання, однак вони можуть сказати вам частку монет від розподілу неупереджені монети, які б давали h або більше голів при переверненні N разів. Оскільки природним визначенням ймовірності, яку ми використовуємо в повсякденному житті, є, як правило, байєсівське, а не частолістське, то це занадто просто трактувати це як можливе, що нульова гіпотеза (монета є неупередженою) є істинною.

По суті часті тести гіпотези мають неявний суб'єктивістський байєсовський компонент, що лежить в основі. Тест на частість може виявити вам ймовірність дотримання статистики хоча б як крайньої за нульовою гіпотезою, однак рішення про відхилення нульової гіпотези з цих підстав є повністю суб'єктивним, для вас немає раціональної вимоги. Досвід Essentiall показав, що ми, як правило, на достатньо твердій основі, щоб відкинути нуль, якщо значення р достатньо мало (знову ж таки поріг є суб'єктивним), тож така традиція. АФАЙКС це не добре вписується у філософію чи теорію науки, вона по суті є евристикою.

Це не означає, що це погано, хоча, незважаючи на його недосконалість, тестування частої гіпотез дає перешкоду, що наше дослідження повинно подолати, що допомагає нам як науковцям зберігати свій само скептицизм і не захоплюватися захопленням нашими теоріями. Тож, хоча я є серцем байєсів, я все ще регулярно користуюся тестами гіпотез відвідувачів (принаймні, доки рецензенти журналів не будуть задоволені альтернативами Байесайна).


3

Щоб додати відповідь Гевіна, кілька речей:

По-перше, я чув цю думку, що судження можуть бути підробленими, але ніколи не доведеними. Чи можете ви опублікувати посилання на дискусію з цього приводу, адже з нашою формулюванням тут, здається, це не дуже добре - якщо X є пропозицією, то не (X) є пропозицією. Якщо спростування пропозицій можливо, то спростування X - це те саме, що доведення не (X), і ми довели твердження.

тест+

Препарат ефективний (тобто: якщо препарат ефективний, ви побачите ефект).

тест+тест+Н0

тест+Н0тест+Н0

Отже, різниця між випадком собаки та випадком ефективності полягає у доцільності висновку від доказів до висновку. У випадку з собакою ви помітили деякі докази, які не означають, що собака сильно означає. Але у справі клінічного випробування ви помітили деякі докази, які в значній мірі означають ефективність.


1
Дякую. Якщо ви погоджуєтесь, що ви можете лише підробляти твердження, але не доводити їх (посилання за секунду), єдиним, що логічно відповідає, є вибір нульової гіпотези як нової теорії - яку потім можна підробити. Якщо ви фальсифікуєте статус-кво, ви залишаєтеся порожніми (статус-кво спростується, але нова теорія далеко не доведена!). Тепер для посилання, я думаю, хорошим початковим пунктом буде: en.wikipedia.org/wiki/Falsifiability
vonjd

2
Я думаю, що тут слід зазначити, що ви не доводите чи не спростовуєте нульову гіпотезу. Рішення, яке ви приймаєте (класично) - зберегти або відхилити нульову гіпотезу. Коли ви відкидаєте нульову гіпотезу, ви не спростовуєте її. Все, що ви робите, - це те, що враховуючи спостережувані дані, нульова гіпотеза є малоймовірною.
russellpierce

@drknexus: Ну, ти не погодишся, що це ймовірний еквівалент фальсифікації в логіці?
фондж

4
@drknexus Чи не було б точнішим не сказати "з огляду на спостережувані дані, нульова гіпотеза малоймовірна", а скоріше "якщо нульова гіпотеза вірна, то ці дані малоймовірні"? Чи не плутати ці дві класичні помилки в тестуванні статистичної гіпотези?
Майкл МакГоуан

1
М.М .: Ви маєте рацію. Мені було неохайно в моїй редакції.
russellpierce

3

Ви маєте рацію, що в певному сенсі часті випробування гіпотез мають те, що відбувається назад. Я не кажу, що такий підхід невірний, а швидше, що результати часто не призначені для відповіді на запитання, які найбільше цікавлять дослідника. Якщо ви хочете, щоб методика була схожа на науковий метод, спробуйте зробити висновок Байєса .

Замість того, щоб говорити про "нульову гіпотезу", яку ви можете відхилити або не зможете відкинути, з байєсівського висновку ви починаєте з попереднього розподілу ймовірностей, виходячи з вашого розуміння ситуації. Коли ви набуваєте нових доказів, байєсівський висновок забезпечує основу для оновлення вашої віри з врахуванням доказів. Я думаю, що це схоже на те, як працює наука.


3

Я думаю, у вас тут є принципова помилка (не те, що вся область тестування гіпотез зрозуміла!), Але ви кажете, що ми намагаємось довести альтернативу. Але це не правильно. Ми намагаємось відхилити (підробити) нуль. Якщо результати, які ми отримаємо, були б малоймовірними, якби нуль був істинним, ми відкидаємо нуль.

Зараз, як говорили інші, це зазвичай не питання, яке ми хочемо задати: Нам зазвичай не важливо, наскільки ймовірні результати, якщо нуль є істинним, нас цікавить, наскільки імовірність нуля, враховуючи результати.


3

Якщо я вас правильно зрозумів, ви згодні з покійним, великим Полом Мілом. Побачити

Meehl, PE (1967). Теорія-тестування з психології та фізики: методологічний парадокс . Філософія науки , 34 : 103-115.


6
Не хотіли б трохи розробити цю відповідь?
chl

Посилання мертве :-(
vonjd

Посилання виправлено.
peuhp

2

Я розкрию згадку про Пола Меля від @Doc:

1) Тестування протилежної вашої гіпотези дослідження, оскільки нульова гіпотеза робить це так, що ви можете лише підтвердити той наслідок, який є "формально недійсним" аргументом. Висновки не обов'язково випливають із передумови.

If Bill Gates owns Fort Knox, then he is rich.
Bill Gates is rich.
Therefore, Bill Gates owns Fort Knox.

http://rationalwiki.org/wiki/Affirming_the_consequent

Якщо теорія "Цей препарат покращить одужання", а ви спостерігаєте покращене одужання, це не означає, що ви можете сказати, що ваша теорія правдива. Поява покращеного відновлення могло статися з якоїсь іншої причини. Жодна дві групи пацієнтів або тварин не будуть абсолютно однаковими на початковому рівні і будуть змінюватися з плином часу протягом дослідження. Це є більшою проблемою для спостереження, ніж експериментальні дослідження, оскільки рандомізація "захищає" від серйозних дисбалансів невідомих заплутаних факторів на початковому рівні. Однак рандомізація насправді не вирішує проблему. Якщо межі невідомі, у нас немає способу сказати, наскільки «захист від рандомізації» був успішним.

Також дивіться таблицю 14.1 та обговорення того, чому жодна теорія не може бути перевірена власноруч (завжди є допоміжні фактори, що позначають) у:

Пол Мел. "Проблема - це гносеологія, а не статистика. Замініть тести значущості інтервалом довіри та кількісно оцінюйте точність ризикових числових прогнозів" У Л. Л. Харлоу, С. А. Мулайк та Дж. Штайгер (ред.). Що робити, якщо не було тестів на значущість? (с. 393–425) Mahwah, NJ: Erlbaum, 1997.

2) Якщо введено якийсь тип зміщення (наприклад, дисбаланс деяких заплутаних факторів), ми не знаємо, в якому напрямку буде лежати цей ухил або наскільки він сильний. Найкраща здогадка, яку ми можемо дати, - це 50% шансів змінити групу лікування у напрямку вищого одужання. Оскільки розміри вибірки набувають великих розмірів, також є 50% шансів, що ваш тест на значущість виявить цю різницю, і ви інтерпретуєте дані як підтвердження вашої теорії.

Ця ситуація повністю відрізняється від випадку з нульовою гіпотезою, що "Цей препарат покращить одужання на x%". У цьому випадку наявність будь-яких упереджень (які, я б сказав, завжди існують у порівнянні груп тварин і людей) робить більш шансовим для вас відкинути вашу теорію.

Подумайте про "космос" (Мел називає його "Спілраумом") можливих результатів, обмежених найбільш екстремальними можливими вимірюваннями. Можливо, може бути відновлення 0-100%, і ви можете виміряти з роздільною здатністю 1%. У загальному випадку тестування значущості, місце, що відповідає вашій теорії, становитиме 99% можливих результатів, які ви могли б спостерігати. У випадку, коли ви прогнозуєте конкретну різницю, простір, що відповідає вашій теорії, становитиме 1% від можливих результатів.

Інший спосіб сказати, що пошук доказів проти нульової гіпотези середня1 = середня2 не є серйозним тестом гіпотези дослідження, що наркотик щось робить. Нуль середня1 <середня2 є кращою, але все ж не дуже хорошою.

Дивіться малюнки 3 та 4 тут: (1990). Оцінювання та внесення змін до теорій: Стратегія оборони Лакатосія та два принципи, які вимагають його використання . Психологічний розслідування, 1, 108-141, 173-180


0

Чи не вся статистика базується на припущенні, що у природному світі нічого не визначено (на відміну від техногенного світу ігор та с). Іншими словами, єдиний спосіб, коли ми можемо наблизитись до його розуміння - це вимірювання ймовірності того, що одна річ співвідноситься з іншою, і це коливається між 0 і 1, але може бути лише 1, якщо ми зможемо перевірити гіпотезу нескінченну кількість разів у нескінченна кількість різних обставин, що, звичайно, неможливо. І ми ніколи не можемо дізнатися, що це було нуль з тієї ж причини. Це більш надійний підхід до розуміння реальності природи, ніж математика, яка має справу в абсолютах і здебільшого покладається на рівняння, які, як ми знаємо, є ідеалістичними, тому що якщо, буквально, сторона LH рівняння дійсно = сторона RH, то дві сторони ми можемо повернути назад, і ми нічого не навчимося. Строго кажучи, це стосується лише статичного світу, а не "природного", який є суттєво бурхливим. Отже, нульова гіпотеза повинна навіть підписувати математику - коли б вона не використовувалася для розуміння самої природи.


0

Я думаю, що проблема полягає у слові "правда". Реальність природного світу є внутрішньо непізнаваною, оскільки вона нескінченно складна і нескінченно мінлива у часі, тому «істина», застосована до природи, завжди є умовною. Все, що ми можемо зробити, це спробувати знайти рівні ймовірної відповідності між змінними повторним експериментом. У нашій спробі осмислити реальність ми шукаємо те, що начебто в ній є порядок, і будуємо в нашій свідомості концептуально свідомі моделі цього, щоб допомогти нам прийняти обґрунтовані рішення, АЛЕ це дуже важлива справа, бо завжди є несподіваний. Нульова гіпотеза - єдиний надійний вихідний пункт у нашій спробі осмислити реальність.


1
Я думаю, вам слід злити свої дві відповіді.
фондж

-1

Ми повинні вибрати нульову гіпотезу таку, яку ми хочемо відхилити.

Оскільки в нашому сценарії тестування гіпотез є критична область, якщо область, що перебуває під гіпотезою, приходить у критичну область, ми відкидаємо гіпотезу, інакше ми приймаємо гіпотезу.

Тож припустимо, що ми вибираємо нульову гіпотезу, ту, яку ми хочемо прийняти. І область під нульовою гіпотезою не підпадає під критичну область, тому ми приймемо нульову гіпотезу. Але проблема тут полягає в тому, що якщо область під нульовою гіпотезою потрапляє під прийнятну область, то це не означає, що область, що перебуває під альтернативною гіпотезою, не потрапить під прийнятну область. І якщо це так, то наше тлумачення результату буде неправильним. Отже, ми маємо лише сприймати цю гіпотезу як нульову гіпотезу, яку ми хочемо відкинути. Якщо ми здатні відкинути нульову гіпотезу, то це означає, що альтернативна гіпотеза є істинною. Але якщо ми не в змозі відкинути нульову гіпотезу, то це означає, що будь-яка з двох гіпотез може бути правильною. Можливо, тоді ми можемо взяти ще один тест, в якому ми можемо сприймати свою альтернативну гіпотезу як нульову гіпотезу, і тоді ми можемо спробувати її відхилити. Якщо ми зможемо відкинути альтернативну гіпотезу (яка зараз є нульовою гіпотезою), то можна сказати, що наша початкова нульова гіпотеза була правдою.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.