Діалог між учителем та продуманим учнем
Покірно подано у вірі, що поки що в цій нитці було використано недостатньо олівців. Короткий ілюстрований конспект з'являється в кінці.
Учень : Що означає p-значення? Багато людей, схоже, згодні з тим, що шанс, що ми "побачимо вибірку, що означає більше або дорівнює" статистиці, або це "ймовірність спостереження за цим результатом ... враховуючи нульову гіпотезу істинної" або де "статистика мого зразка" впав на [модельований] розподіл " і навіть " ймовірність дотримання статистики тесту як мінімум настільки ж велику, як обчислена, припускаючи, що нульова гіпотеза є істинною " .
Вчитель : Правильно зрозумілі, всі ці твердження є правильними за багатьох обставин.
Студент : Я не бачу, наскільки більшість із них є релевантними. Ви не навчили нас, що ми маємо викласти нульову гіпотезу та альтернативну гіпотезу ? Як вони беруть участь у цих ідеях "більшого або рівного" або "принаймні такого ж великого" чи дуже популярного "більш екстремального"?H AH0HA
Вчитель : Оскільки це взагалі може здатися складним, чи допомогло б нам вивчити конкретний приклад?
Учень : Звичайно. Але будь ласка, зробіть це реалістичним, але простим, якщо зможете.
Вчитель : Ця теорія тестування гіпотез історично починалася з потреби астрономів аналізувати помилки спостережень, а як щодо того, як почати там. Одного разу я переглядав деякі старі документи, де вчений описав свої зусилля щодо зменшення похибки вимірювання у своєму апараті. Він провів чимало вимірювань зірки у відомій позиції та зафіксував їх переміщення перед або поза цим положенням. Щоб візуалізувати ці зміщення, він намалював гістограму, яка - коли трохи згладжена - виглядала як ця.
Учень : Я пам'ятаю, як працюють гістограми: вертикальна вісь позначена "Щільність", щоб нагадати мені, що відносні частоти вимірювань представлені площею, а не висотою.
Вчитель : Правильно. "Незвичне" або "екстремальне" значення було б розташоване в регіоні з досить невеликою площею. Ось олівець. Як ви думаєте, ви могли б пофарбуватись у регіоні, площа якого становить лише десяту частину від загальної?
Учень : Впевнений; це просто. [Кольори на малюнку.]
Вчитель : Дуже добре! Це виглядає приблизно 10% площі для мене. Однак пам’ятайте, що єдині важливі області в гістограмі - це області між вертикальними лініями: вони представляють шанс або ймовірність того, що зміщення буде розташоване між цими лініями на горизонтальній осі. Це означає, що вам потрібно було пофарбувати все до низу, і це було б більше половини площі, чи не так?
Учень : О, бачу. Дозвольте спробувати ще раз. Я хочу зафарбувати там, де крива насправді низька, чи не так? Найнижчий на двох кінцях. Чи потрібно фарбувати лише в одній області або було б нормально розбити її на кілька частин?
Вчитель : Використання декількох частин - розумна ідея. Де вони були б?
Учень (вказує): Тут і тут. Оскільки цей олівець не дуже гострий, я використовував ручку, щоб показати вам лінії, якими я користуюся.
Вчитель : Дуже приємно! Дозвольте розповісти вам решту історії. Вчений здійснив деякі вдосконалення свого пристрою, а потім зробив додаткові вимірювання. Він написав, що зміщення першого - лише , що він вважав хорошим знаком, але, будучи уважним вченим, він продовжував брати більше вимірювань як перевірку. На жаль, ті інші вимірювання втрачаються - рукопис обривається в цей момент, - і все, що ми маємо, це єдине число, .0,10.10.1
Учень : Це занадто погано. Але чи не так це краще, ніж широке поширення переміщень у вашій фігурі?
Вчитель : На це я б хотів відповісти. Для початку, що ми повинні ставити як ?H0
Студент : Ну, скептик буде цікаво, чи покращення пристрою взагалі мали вплив. Тягар доказування лежить на вченому: він хотів би показати, що скептик помиляється. Це змушує мене думати, що нульова гіпотеза є вченою поганою для вченого: вона говорить, що всі нові вимірювання - включаючи значення, про які ми знаємо - повинні діяти так, як описано в першій гістограмі. А може, ще гірше, ніж це: вони можуть бути ще більше поширені.0.1
Вчитель : Продовжуйте, у вас все добре.
Студент : І тому альтернативою є те, що нові вимірювання будуть менш розповсюдженими, правда?
Вчитель : Дуже добре! Не могли б ви намалювати мені картину, як виглядатиме гістограма з меншим поширенням? Ось ще одна копія першої гістограми; ви можете намалювати його як орієнтир.
Учень (малюнок): Я використовую перо, щоб окреслити нову гістограму, і я розфарбую в області під нею. Я зробив це так, що більша частина кривої близька до нуля на горизонтальній осі, і тому більша частина її площі знаходиться біля (горизонтального) значення нуля: це означає бути менш розгорнутим або точнішим.
Вчитель : Це вдалий початок. Але пам’ятайте, що гістограма, яка показує шанси, повинна мати загальну площу . Таким чином, загальна площа першої гістограми дорівнює . Скільки площі знаходиться у вашій новій гістограмі?111
Учень : Я думаю, що менше половини. Я бачу, що це проблема, але я не знаю, як її виправити. Що я повинен зробити?
Вчитель : Хитрість полягає в тому, щоб нова гістограма була вищою за стару, щоб її загальна площа була . Тут я покажу вам ілюстровану комп'ютером версію.1
Студент : Я бачу: ви витягнули його вертикально, щоб його форма насправді не змінилася, але тепер червона зона та сіра зона (включаючи частину під червоною) є однаковими.
Вчитель : Правильно. Ви дивитесь картину нульової гіпотези (синього кольору, розкладеної) та частини альтернативної гіпотези (червоного кольору, з меншим поширенням).
Студент : Що ви маєте на увазі під «частиною» альтернативи? Хіба це не альтернативна гіпотеза?
Вчитель : Статистики та граматика, схоже, не змішуються. :-) Серйозно, те, що вони означають під "гіпотезою", як правило, - це цілий великий набір можливостей. Тут альтернативою (як ви вже так добре заявляли раніше) є те, що вимірювання "менш розповсюджені", ніж раніше. Але наскільки менше ? Є багато можливостей. Ось, дозвольте показати вам інше. Я намалював це жовтими штрихами. Це між двома попередніми.
Студент : Я бачу: ви можете мати різну кількість спредів, але ви не знаєте заздалегідь, скільки буде насправді спред. Але чому ви зробили смішне затінення на цій фотографії?
Вчитель : Я хотів висвітлити, де і як відрізняються гістограми. Я відтіняв їх сірим кольором там, де альтернативні гістограми нижчі за нульові, і червоним, де альтернативи вищі .
Студент : Чому це має значення?
Вчитель : Ви пам’ятаєте, як ви розфарбували першу гістограму в обох хвостах? [Переглядаючи папери.] Ага, ось воно. Давайте розфарбуємо цю картину таким же чином.
Учень : Я пам’ятаю: це крайні цінності. Я знайшов місця, де нульова щільність була якомога меншою та забарвленою в 10% площі там.
Вчитель : Розкажіть про альтернативи в тих крайніх районах.
Студент : Це важко помітити, тому що олівець прикривав його, але схоже, що майже не існує жодної альтернативи опинитися в кольорах, які я забарвив. Їх гістограми розташовані прямо проти осі значення і немає місця для жодної області під ними.
Вчитель : Давайте продовжимо цю думку. Якби я сказав вам гіпотетично, що вимірювання має зміщення , і попросив вас вибрати, яка з цих трьох гістограм була найвірогіднішою, що це було б?−2
Учень : Перший - блакитний. Це найбільше поширення, і це єдине, де здається, мають будь-який шанс виникнути.−2
Вчитель : А як щодо значення у рукописі?0.1
Учень : Хммм ... це вже інша історія. Усі три гістограми знаходяться досить високо над землею на рівні .0.1
Вчитель : Добре, досить справедливо. Але припустимо, я сказав вам, що значення було десь близько , наприклад, від до . Чи допоможе це вам прочитати деякі ймовірності з цих графіків?0 0,20.100.2
Учень : Звичайно, бо я можу використовувати зони. Я просто повинен оцінити площі під кожною кривою між і . Але це виглядає досить важко.0,200.2
Вчитель : Не потрібно так далеко йти. Чи можете ви просто сказати, яка площа найбільша?
Студент : Той, що знаходиться під найвищою кривою, звичайно. Всі три області мають однакову основу, тому чим вище крива, тим більше площі під нею та основою. Це означає, що найвища гістограма - та, яку я намалював, з червоними тире - є найімовірнішою з зміщенням . Я думаю, я бачу, куди ти йдеш з цим, але я трохи стурбований: чи не потрібно мені переглядати всі гістограми для всіх альтернатив, а не лише одну чи дві, показані тут? Як я могла це зробити?0.1
Вчитель : Ти добре підбираєш схеми, тож скажи мені: коли вимірювальний апарат робиться все точніше, що відбувається з його гістограмою?
Учень : Вона стає вужчою - ой, і вона також повинна бути вище, тому загальна її площа залишається однаковою. Це робить досить важким порівняння гістограм. Альтернативні всі вище, ніж нульова справа на , це очевидно. Але за іншими значеннями іноді альтернативи є вищими, а іноді - нижчими! Наприклад, [вказуючи на значення біля ], тут моя червона гістограма є найнижчою, жовта гістограма - найвищою, а початкова нульова гістограма знаходиться між ними. Але справа справа нуль найвищий.3 / 403/4
Вчитель : Взагалі порівняння гістограм - справа складна. Щоб допомогти нам це зробити, я попросив комп'ютер зробити інший графік: він розділив кожну з альтернативних висот гістограми (або "щільності") на нульову висоту гістограми, створивши значення, відомі як "коефіцієнти ймовірності". В результаті значення більше означає, що альтернатива є більш імовірною, тоді як значення менше означає, що альтернатива є менш імовірною. Він створив ще одну альтернативу: він більше розкинутий, ніж інші два, але все ж менш розгорнутий, ніж був оригінальний апарат.111
Вчитель (продовжує): Чи можете ви показати мені, де альтернативи мають більше шансів, ніж нульові?
Учень (розфарбування): Тут посередині, очевидно. А оскільки це вже не гістограми, я думаю, що ми повинні дивитись на висоти, а не на площі, тому я просто відзначаю діапазон значень на горизонтальній осі. Але як я можу знати, скільки середнього кольору забарвити? Де я припиняю фарбувати?
Вчитель : Не існує твердого правила. Все залежить від того, як ми плануємо використовувати свої висновки та наскільки шалені скептики. Але сидіти склавши руки і думати про те, що ви зробили: тепер ви розумієте , що результати з великим відношенням правдоподібності є доказом для альтернативи і результати з невеликими відношення правдоподібності свідчать проти альтернативи. Що я попрошу вас зробити, - це забарвлення в тій області, яка, наскільки це можливо, має малий шанс виникнути під нульовою гіпотезою і порівняно великий шанс виникнути за альтернативами. Повернувшись до першої кольорової діаграми, ще на початку нашої розмови ви пофарбували два хвости нуля, оскільки вони були "крайніми". Вони б все-таки добре зробили роботу?
Студент : Я не думаю, що так. Незважаючи на те, що вони були досить екстремальними та рідкісними під нульовою гіпотезою, вони практично неможливі для жодної з альтернатив. Якби моє нове вимірювання було, скажімо, , я думаю, я би зіштовхнувся зі скептиком і заперечую, що будь-яке поліпшення відбулося, навіть якщо було незвичним результатом у будь-якому випадку. Я хочу змінити це забарвлення. Ось - дозвольте мені ще один олівець.3.03.03.0
Вчитель : Що це являє?
Студент : Ми почали з вами просити намалювати лише 10% площі під початковою гістограмою - тією, що описує нуль. Тож зараз я намалював 10% площі, де альтернативи, схоже, трапляються. Я думаю, що коли нове вимірювання в цій області, це говорить нам, що нам слід вірити альтернативі.
Вчитель : І як скептик повинен реагувати на це?
Учень : Скептик ніколи не повинен визнати, що він помиляється, чи не так? Але я думаю, що його віру слід трохи похитнути. Зрештою, ми влаштували це так, що хоча вимірювання може бути всередині області, яку я тільки що намалював, він має лише 10% шансу опинитися там, коли нуль відповідає дійсності. І є більший шанс бути там, коли альтернатива справжня. Я просто не можу сказати, наскільки більший цей шанс, тому що це залежатиме від того, наскільки вчений вдосконалив апарат. Я просто знаю, що вона більша. Тож докази були б проти скептиків.
Вчитель : Гаразд. Чи не заперечуєте ви підсумувати своє розуміння, щоб ми цілком зрозуміли, що ви дізналися?
Учень : Я дізнався, що для порівняння альтернативних гіпотез з недійсними гіпотезами ми повинні порівняти їхні гістограми. Ділимо щільність альтернатив на щільність нуля: саме так ви назвали "коефіцієнт ймовірності". Щоб зробити хороший тест, я повинен вибрати невелику кількість, як-от 10%, або все, що може бути достатньо, щоб похитнутись скептиком. Тоді я повинен знайти значення, де коефіцієнт ймовірності максимально високий, і пофарбувати їх до тих пір, поки 10% (або що б там не було) пофарбовано.
Вчитель : А як би ти використовував це забарвлення?
Учень : Як ви мені раніше нагадували, забарвлення має бути між вертикальними лініями. Значення (на горизонтальній осі), що лежать під забарвленням, є свідченням проти нульової гіпотези. Інші значення - ну, важко сказати, що вони можуть означати, не розглядаючи більш детально всі гістограми.
Вчитель : Що б ви зробили, повертаючись до значення у рукописі?0.1
Студент : Це в тій області, яку я востаннє забарвлював, тож я думаю, що вчений, мабуть, мав рацію, і апарат справді був удосконалений.
Вчитель : Останнє. Ваш висновок ґрунтувався на виборі 10% як критерію, або "розміру" тесту. Багато людей люблять використовувати замість цього 5%. Деякі вважають за краще 1%. Що ви могли їм сказати?
Студент : Я не міг зробити всі ці тести одразу! Ну, може, я міг певним чином. Я бачу, що незалежно від того, якого розміру повинен бути тест, я повинен почати розфарбовувати з , що в цьому сенсі є "найбільш крайнім" значенням, і працювати звідти в обох напрямках. Якби я зупинився прямо на - фактично спостерігалося значення - я думаю, я б пофарбував у зоні десь від до , скажімо . 5% та 1% людей могли відразу сказати, що я забарвлюю занадто багато: якби вони хотіли пофарбувати лише 5% чи 1%, вони могли, але вони не отримали б так само0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Вони не прийшли б до такого ж висновку, що і я: вони сказали б, що немає достатньо доказів того, що зміна насправді відбулася.
Вчитель : Ви щойно сказали мені, що насправді означають усі ці цитати на початку . З цього прикладу повинно бути очевидно, що вони, можливо, не можуть мати на увазі "більш екстремальний" або "більший або рівний" або "принаймні такий же великий", в сенсі мати більше значення або навіть мати значення там, де нульова щільність невелика. Вони справді мають на увазі ці речі у значенні великого коефіцієнта ймовірності, який ви описали. До речі, число навколо яке ви обчислили, називається "р-значення". Це можна правильно зрозуміти лише описаним вами способом: стосовно аналізу відносних висот гістограми - коефіцієнтів ймовірності.0.08
Учень : Дякую Я не впевнений, я все це повністю розумію, але ви мені дали багато про що подумати.
Вчитель : Якщо ви хочете піти далі, погляньте на лему Неймана-Пірсона . Ви, мабуть, готові зараз це зрозуміти.
Конспект
Багато тестів, які базуються на одній статистиці, як, наприклад, у діалоговому вікні, називатимуть це " " або " ". Це способи натякнути на те, як виглядає нульова гістограма, але вони є лише підказками: те, що ми називаємо цим числом, насправді не має значення. Узагальнена студентом побудова, як показано тут, показує, як вона пов'язана з р-значенням. Значення р - це найменший розмір тесту, який би спричинив спостереження що призведе до відкидання нульової гіпотези.t t = 0,1ztt=0.1
На цьому малюнку, який масштабується для показу деталей, нульова гіпотеза побудована суцільно-синім кольором, а дві типові альтернативи побудовані пунктирними лініями. Затінена область, де ці альтернативи, як правило, набагато більше, ніж нульова. Затінення починається там, де відносна ймовірність альтернатив найбільша (при ). Затінення припиняється, коли досягається спостереження . Значення р - це область затіненої області під нульовою гістограмою: це шанс, припустивши, що нуль є істинним, спостерігати результат, коефіцієнт вірогідності якого, як правило, великий, незалежно від того, яка альтернатива трапляється істинною. Зокрема, ця конструкція тісно залежить від альтернативної гіпотези. Це неможливо здійснити без вказівки можливих альтернатив.т = 0,10t=0.1