Що означає Фішер під цією цитатою?


14

Я продовжую бачити всю цю відому цитату скрізь, але не розумію акцентованої частини кожного разу.

Людина, яка тимчасово «відкидає» гіпотезу, як звична практика, коли значення є на рівні 1% або вище, неодмінно помилиться у не більше 1% таких рішень. Тому що, коли гіпотеза правильна, він помилиться лише у 1% цих випадків, а коли це неправильно, він ніколи не помилиться у відхиленні. [...] Однак обчислення є абсурдно академічним, адже насправді жоден науковий працівник не має фіксованого рівня значущості, на якому з року в рік і за будь-яких обставин він відкидає гіпотези; він, швидше, приділяє свою думку кожному конкретному випадку у світлі своїх свідчень та своїх ідей.Не слід забувати, що випадки, обрані для подання тесту, явно є дуже підібраним набором, і що умови відбору не можуть бути визначені навіть для одного працівника; і що в аргументі, що використовується, очевидно було б нелегітимним обирати фактичний рівень значущості, зазначений у конкретному випробуванні, як ніби це було протягом усього звички використовувати саме цей рівень.

(Статистичні методи та наукові висновки, 1956, стор. 42-45)

Більш конкретно, я не розумію

  1. Чому обрані випадки для застосування тесту "високо обрані"? Скажіть, вам цікаво, чи середній зріст людей у ​​районі менше 165 см, і вирішите провести тест. Наскільки я знаю, стандартною процедурою є витяг випадкових зразків із району та вимірювання їх висоти. Як це можна вибрати високо?
  2. Припустимо, випадки обрані дуже сильно, але як це пов'язано з вибором рівня значущості? Розглянемо ще раз приклад вище, якщо ваш метод вибірки (я вважаю, це те, що Фішер називає умовами відбору ) перекошений і якимось чином сприяє високим людям, то все дослідження руйнується, і суб'єктивне визначення рівня значущості не може його врятувати.
  3. Насправді я навіть не знаю, на що йдеться "фактичний рівень значущості, визначений конкретним випробуванням". Це -значення цього експерименту, якесь задане значення, як-от (знаменитий) 0,05, чи щось інше?p

Відповіді:


15

Ось мій переказ того, що говорить Фішер у вашій жирній цитаті. Не слід забувати, що досить багато йде на вибір, яку гіпотезу перевірити, настільки, що навіть для рішення однієї людини ви не змогли б це все вказати. Не слід також забувати, що з причин, зазначених вище, ви не можете визначати рівень значущості конкретного випробування завжди так само, як і звичка до життя.

  1. Наукова гіпотеза обрана як вартий тестування проти багатьох інших конкуруючих гіпотез через упередженість дослідника та їх сучасний стан знань. Ці гіпотези є «високо обрані», а НЕ зразки; то гіпотези є випадки , коли ми застосовуємо тести.

  2. Процес відбору гіпотез впливає на наш рівень значущості. Якщо ми впевнені в гіпотезі, це повинно зробити рівень значущості менш суворим, щоб задовольнити себе. Якщо ми не впевнені, існує більший тягар доказування. Також грають інші фактори, такі як помилка типу I гірша, ніж тип II у випробуваннях на наркотики.

  3. Я думаю, що коли він каже "вказаний", він просто означає "обраний". Так, це задане значення, коли ми відкидаємо гіпотезу, якщо значення p є більш екстремальним.


10

Випадки, на які Фішер посилається, - це не спостереження, а тести. Тобто ми вибираємо гіпотези для тестування. Ми не просто перевіряємо випадкові гіпотези - ми базуємо їх на спостереженні, літературі, наукових теоріях тощо.

Якщо ви зробили тест випадкових гіпотез, то скільки разів ви помиляєтеся (в першому реченні вашої цитати) буде 1% (або будь-яке значення вибрано). Наприклад, якщо ми перевірили такі гіпотези

  • Паритет номера соціального страхування людини пов'язаний з його IQ

  • Білошкірі люди краще кидають фрісбі, ніж темношкірі

  • Час отримання відповіді на перехресну перевірку пов’язаний із кількістю складів у вашому імені.

І протестувавши цілу купу їх на рівні 1%, ми б відкинули нуль приблизно 1% часу і зробимо це неправильно. (Якщо, звичайно, я не в чомусь із вищезгаданими дурницями).

Я колись бачив статтю про колір волосся та кидання фрісбі - і це знайшло різницю! Отже, я називаю подібну річ «дослідження фрісбі».

Але частина, яка мені найбільше подобається в цитаті, така:

адже насправді жоден науковий працівник не має фіксованого рівня значущості, на якому з року в рік і за будь-яких обставин він відкидає гіпотези; він, швидше, приділяє свою думку кожному конкретному випадку у світлі своїх свідчень та своїх ідей.

Він, мабуть, крутиться в могилі.


4
Це хороша відповідь, але я вагаюся, коли "Фризбі-дослідження" розглядають як погані речі. Поки методики використовуються належним чином (з урахуванням розміру ефекту тощо), я вважаю результат правдоподібним. Я маю на увазі, вважається, що колір волосся не має нічого спільного з киданням фрісбі, але було прийнято, що Земля була в центрі Всесвіту до сотень років тому! Ми можемо критикувати людей за те, що вони роблять неправильно, але ми не повинні звинувачувати нікого в питанні. Якщо говорити, я згоден, що деякі гіпотези менш корисні, ніж інші, але все-таки вони можуть бути правильними .
nalzok

І вони також можуть бути помилками I типу.
Пітер Флом - Відновити Моніку

1
Пов'язано: xkcd.com/882
jkdev

2

Намагаючись побачити тло цитати, я прийшов до версії книги (я не впевнений, яка саме версія), яка має дещо іншу цитату

https://archive.org/details/in.ernet.dli.2015.134555/page/n47

Спроби, які були зроблені для пояснення стійкості важливих тестів у науковому дослідженні, посилаючись на гіпотетичні частоти можливих тверджень, заснованих на них, є правильними чи неправильними, таким чином, здається, втрачають істотний характер таких тестів. Людина, яка тимчасово «відкидає» гіпотезу, як звична практика, коли значущість на рівні 1% або вище, неодмінно помилиться у не більше 1% таких рішень. Тому що, коли гіпотеза правильна, він помилиться лише у 1% цих випадків, а коли це неправильно, він ніколи не помилиться у відхиленні. Отже, це твердження про нерівність можна зробити. Однак обчислення є абсурдно академічним, адже насправді жоден науковий працівник не має фіксованого рівня значущості, на якому з року в рік і за будь-яких обставин, він відкидає гіпотези; він, швидше, приділяє свою думку кожному конкретному випадку у світлі своїх свідчень та своїх ідей. Далі, обчислення ґрунтується виключно на гіпотезі, яка, зважаючи на докази, часто взагалі не вважається правдивою, так що фактична ймовірність помилкового рішення, припускаючи, що така фраза має будь-яке значення, може бути набагато менше частоти, що визначає рівень значущості. Для практичної людини, яка також відкидає гіпотезу, це, звичайно, питання байдужості до того, якою ймовірністю він може бути примушений сприймати гіпотезу помилково, бо в його випадку він її не приймає. часто не вважається правдою взагалі, так що фактична ймовірність помилкового рішення, припускаючи, що така фраза має будь-яке значення, може бути набагато меншою, ніж частота, що визначає рівень значущості. Для практичної людини, яка також відкидає гіпотезу, це, звичайно, питання байдужості до того, якою ймовірністю він може бути примушений сприймати гіпотезу помилково, бо в його випадку він її не приймає. часто не вважається правдою взагалі, так що фактична ймовірність помилкового рішення, припускаючи, що така фраза має будь-яке значення, може бути набагато меншою, ніж частота, що визначає рівень значущості. Для практичної людини, яка також відкидає гіпотезу, це, звичайно, питання байдужості до того, якою ймовірністю він може бути примушений сприймати гіпотезу помилково, бо в його випадку він її не приймає.

Мені це здається критикою використання математичного вираження можливостей відхилення, помилок типу I, як якихось суворих аргументів. Ці вирази часто не є хорошим вираженням того, що є релевантним, і не є суворими.

  1. Чому обрані випадки для застосування тесту "високо обрані"?

    Це, здається, стосується речення

    Далі, розрахунок ґрунтується виключно на гіпотезі, яка, зважаючи на докази, часто взагалі не вважається правдивою.

    Ми не байдужі до гіпотези, яка перевіряється, і часто гіпотеза, яка перевіряється, не вважається істинною.

  2. як це пов’язано з вибором рівня значущості?

    Це стосується

    так що фактична ймовірність помилкового рішення, припускаючи, що така фраза має якесь значення, може бути набагато меншою, ніж частота, що визначає рівень значущості

    Значення р - це просто частота помилки, коли нульова гіпотеза є істинною. Але фактична частота помилки буде різною (нижчою).

  3. на що йдеться "фактичний рівень значущості, вказаний конкретним випробуванням"

    Я вважаю, що ця частина стосується якогось злому p-значення. Змінюючи рівень значущості, альфа, після того, як спостереження відбулися, щоб відповідати спостережуваному р-значенню, і робити вигляд, що це значення відсікання протягом усього початку.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.