Яке значення p значень та t значень у статистичних тестах?


246

Пройшовши курс статистики, а потім спробувавши допомогти студентам, я помітив один предмет, який надихає багато стук в головному кабінеті - інтерпретацію результатів тестів статистичної гіпотези. Схоже, студенти легко навчаються виконувати обчислення, необхідні даним тестом, але зациклюються на інтерпретації результатів. Багато комп’ютеризованих інструментів повідомляють про результати випробувань у термінах "p значення" або "t значення".

Як би ви пояснили наступні моменти студентам коледжу, які проходять перший курс зі статистики:

  • Що означає "p-значення" стосовно гіпотези, що перевіряється? Чи бувають випадки, коли потрібно шукати високе значення p або низьке p?

  • Який взаємозв'язок між p-значенням і t-значенням?


11
Справедлива частина цього в основному охоплюється першим реченням статті вікіпедії про значення p , яке правильно визначає p-значення. Якщо це зрозуміло, багато чого стане зрозумілим.
Glen_b

1
Просто дістаньте книгу: Статистика без сліз. Це може врятувати ваш розум !!

7
@ user48700 Не могли б ви підсумувати, як це пояснює " Статистика без сліз" ?
Метт Крауз

5
Хтось повинен скласти графік питань, пов'язаних з p-значеннями, з часом, і я думаю, що ми побачимо сезонність та відповідність академічним календарям в коледжах або курсах з вивчення даних Coursera
Аксакал

Окрім інших приємних та релевантних книжкових рекомендацій у відповідях та коментарях, я хотів би запропонувати ще одну книгу, відповідним чином названу "Що таке р-значення все одно?" .
Олександр Блех

Відповіді:


150

Розуміння -значенняp

Припустимо, ви хочете перевірити гіпотезу про те, що середній зріст студентів-чоловіків у вашому університеті становить футів дюймів. Ви збираєте висоту у студентів, вибраних навмання, і обчислюєте середню вибірку (скажімо, вона виявляється футів дюймів). Використовуючи відповідну формулу / статистичну процедуру, ви обчислюєте значення значення для своєї гіпотези і говорите, що воно виявляється .5710059p0.06

Щоб правильно інтерпретувати , слід пам’ятати про кілька речей:p=0.06

  1. Перший крок під час тестування класичної гіпотези - припущення, що розглянута гіпотеза є істинною. (У нашому контексті ми припускаємо, що справжня середня висота становить футів дюймів.)57

  2. Уявіть, що ви робите наступний розрахунок: обчисліть ймовірність того, що середнє значення вибірки перевищує футів дюймів, припускаючи, що наша гіпотеза насправді правильна (див. Пункт 1).59

Іншими словами, ми хочемо знати

P(Samplemean5ft9inches|Truevalue=5ft7inches).

Обчислення на кроці 2 - це те, що називається -значення. Отже, -значення означало б, що якщо ми повторимо експеримент багато, багато разів (кожен раз, коли ми відбираємо учнів випадковим чином і обчислюємо середнє значення вибірки), то разів із ми можемо розраховувати побачити вибірку означає більше або дорівнює футів дюймів.pp0.06100610059

З огляду на вищезгадане розуміння, чи варто все-таки зберігати наше припущення, що наша гіпотеза правдива (див. Крок 1)? Ну, вказує на те, що сталося одне з двох речей:p=0.06

  • (A) Або наша гіпотеза правильна, і надзвичайно малоймовірна подія сталася (наприклад, всі студентів - спортсмени-студенти)100

або

  • (B) Наше припущення є невірним, і отриманий нами зразок не є таким незвичним.

Традиційний спосіб вибору між (A) та (B) - це вибір довільного відсічення для . Вибираємо (A), якщо і (B), якщо .pp>0.05p<0.05


3
Не поспішай! Я не замислююся над тим, щоб вибрати "Найкращу відповідь" протягом тижня або близько того.
Шарпі

1
Тепер, коли я мав шанс повернутися і прочитати всю відповідь - великий +1 для прикладу висоти студента. Дуже чітко і добре викладено.
Шарпі

3
Приємна робота ... але нам потрібно додати (С) наша модель (втілена у формулу / статистичну процедуру) помилкова.
Ендрю Робінсон

6
Значення t (або будь-яка інша статистика тесту) є переважно проміжним кроком. Це, в основному, деяка статистика, за якою, за деякими припущеннями, було добре відоме розподіл. Оскільки нам відомий розподіл тестової статистики під нульовим значенням, ми можемо використовувати стандартні таблиці (сьогодні переважно програмне забезпечення) для отримання p-значення.
Гала

1
Чи не р-значення, отримане в результаті тестування хі-квадрата, а потім з таблиці-квадрат-хі? Цікаво, як приходить обчислена вище ймовірність вказала саме значення p ?!
Лондонський хлопець

123

Діалог між учителем та продуманим учнем

Покірно подано у вірі, що поки що в цій нитці було використано недостатньо олівців. Короткий ілюстрований конспект з'являється в кінці.


Учень : Що означає p-значення? Багато людей, схоже, згодні з тим, що шанс, що ми "побачимо вибірку, що означає більше або дорівнює" статистиці, або це "ймовірність спостереження за цим результатом ... враховуючи нульову гіпотезу істинної" або де "статистика мого зразка" впав на [модельований] розподіл " і навіть " ймовірність дотримання статистики тесту як мінімум настільки ж велику, як обчислена, припускаючи, що нульова гіпотеза є істинною " .

Вчитель : Правильно зрозумілі, всі ці твердження є правильними за багатьох обставин.

Студент : Я не бачу, наскільки більшість із них є релевантними. Ви не навчили нас, що ми маємо викласти нульову гіпотезу та альтернативну гіпотезу ? Як вони беруть участь у цих ідеях "більшого або рівного" або "принаймні такого ж великого" чи дуже популярного "більш екстремального"?H AH0HA

Вчитель : Оскільки це взагалі може здатися складним, чи допомогло б нам вивчити конкретний приклад?

Учень : Звичайно. Але будь ласка, зробіть це реалістичним, але простим, якщо зможете.

Вчитель : Ця теорія тестування гіпотез історично починалася з потреби астрономів аналізувати помилки спостережень, а як щодо того, як почати там. Одного разу я переглядав деякі старі документи, де вчений описав свої зусилля щодо зменшення похибки вимірювання у своєму апараті. Він провів чимало вимірювань зірки у відомій позиції та зафіксував їх переміщення перед або поза цим положенням. Щоб візуалізувати ці зміщення, він намалював гістограму, яка - коли трохи згладжена - виглядала як ця.

Малюнок 1: Гістограма зміщень

Учень : Я пам'ятаю, як працюють гістограми: вертикальна вісь позначена "Щільність", щоб нагадати мені, що відносні частоти вимірювань представлені площею, а не висотою.

Вчитель : Правильно. "Незвичне" або "екстремальне" значення було б розташоване в регіоні з досить невеликою площею. Ось олівець. Як ви думаєте, ви могли б пофарбуватись у регіоні, площа якого становить лише десяту частину від загальної?

Учень : Впевнений; це просто. [Кольори на малюнку.]

Малюнок 2: Перше розфарбування учня.

Вчитель : Дуже добре! Це виглядає приблизно 10% площі для мене. Однак пам’ятайте, що єдині важливі області в гістограмі - це області між вертикальними лініями: вони представляють шанс або ймовірність того, що зміщення буде розташоване між цими лініями на горизонтальній осі. Це означає, що вам потрібно було пофарбувати все до низу, і це було б більше половини площі, чи не так?

Учень : О, бачу. Дозвольте спробувати ще раз. Я хочу зафарбувати там, де крива насправді низька, чи не так? Найнижчий на двох кінцях. Чи потрібно фарбувати лише в одній області або було б нормально розбити її на кілька частин?

Вчитель : Використання декількох частин - розумна ідея. Де вони були б?

Учень (вказує): Тут і тут. Оскільки цей олівець не дуже гострий, я використовував ручку, щоб показати вам лінії, якими я користуюся.

Малюнок 3: Друге забарвлення учня

Вчитель : Дуже приємно! Дозвольте розповісти вам решту історії. Вчений здійснив деякі вдосконалення свого пристрою, а потім зробив додаткові вимірювання. Він написав, що зміщення першого - лише , що він вважав хорошим знаком, але, будучи уважним вченим, він продовжував брати більше вимірювань як перевірку. На жаль, ті інші вимірювання втрачаються - рукопис обривається в цей момент, - і все, що ми маємо, це єдине число, .0,10.10.1

Учень : Це занадто погано. Але чи не так це краще, ніж широке поширення переміщень у вашій фігурі?

Вчитель : На це я б хотів відповісти. Для початку, що ми повинні ставити як ?H0

Студент : Ну, скептик буде цікаво, чи покращення пристрою взагалі мали вплив. Тягар доказування лежить на вченому: він хотів би показати, що скептик помиляється. Це змушує мене думати, що нульова гіпотеза є вченою поганою для вченого: вона говорить, що всі нові вимірювання - включаючи значення, про які ми знаємо - повинні діяти так, як описано в першій гістограмі. А може, ще гірше, ніж це: вони можуть бути ще більше поширені.0.1

Вчитель : Продовжуйте, у вас все добре.

Студент : І тому альтернативою є те, що нові вимірювання будуть менш розповсюдженими, правда?

Вчитель : Дуже добре! Не могли б ви намалювати мені картину, як виглядатиме гістограма з меншим поширенням? Ось ще одна копія першої гістограми; ви можете намалювати його як орієнтир.

Учень (малюнок): Я використовую перо, щоб окреслити нову гістограму, і я розфарбую в області під нею. Я зробив це так, що більша частина кривої близька до нуля на горизонтальній осі, і тому більша частина її площі знаходиться біля (горизонтального) значення нуля: це означає бути менш розгорнутим або точнішим.

Малюнок 4: Нова гістограма студента

Вчитель : Це вдалий початок. Але пам’ятайте, що гістограма, яка показує шанси, повинна мати загальну площу . Таким чином, загальна площа першої гістограми дорівнює . Скільки площі знаходиться у вашій новій гістограмі?111

Учень : Я думаю, що менше половини. Я бачу, що це проблема, але я не знаю, як її виправити. Що я повинен зробити?

Вчитель : Хитрість полягає в тому, щоб нова гістограма була вищою за стару, щоб її загальна площа була . Тут я покажу вам ілюстровану комп'ютером версію.1

Малюнок 5: Нова гістограма вчителя

Студент : Я бачу: ви витягнули його вертикально, щоб його форма насправді не змінилася, але тепер червона зона та сіра зона (включаючи частину під червоною) є однаковими.

Вчитель : Правильно. Ви дивитесь картину нульової гіпотези (синього кольору, розкладеної) та частини альтернативної гіпотези (червоного кольору, з меншим поширенням).

Студент : Що ви маєте на увазі під «частиною» альтернативи? Хіба це не альтернативна гіпотеза?

Вчитель : Статистики та граматика, схоже, не змішуються. :-) Серйозно, те, що вони означають під "гіпотезою", як правило, - це цілий великий набір можливостей. Тут альтернативою (як ви вже так добре заявляли раніше) є те, що вимірювання "менш розповсюджені", ніж раніше. Але наскільки менше ? Є багато можливостей. Ось, дозвольте показати вам інше. Я намалював це жовтими штрихами. Це між двома попередніми.

Рисунок 6: Нуль разом з двома елементами альтернативи

Студент : Я бачу: ви можете мати різну кількість спредів, але ви не знаєте заздалегідь, скільки буде насправді спред. Але чому ви зробили смішне затінення на цій фотографії?

Вчитель : Я хотів висвітлити, де і як відрізняються гістограми. Я відтіняв їх сірим кольором там, де альтернативні гістограми нижчі за нульові, і червоним, де альтернативи вищі .

Студент : Чому це має значення?

Вчитель : Ви пам’ятаєте, як ви розфарбували першу гістограму в обох хвостах? [Переглядаючи папери.] Ага, ось воно. Давайте розфарбуємо цю картину таким же чином.

Малюнок 7: Нульова та альтернативна кольорова.

Учень : Я пам’ятаю: це крайні цінності. Я знайшов місця, де нульова щільність була якомога меншою та забарвленою в 10% площі там.

Вчитель : Розкажіть про альтернативи в тих крайніх районах.

Студент : Це важко помітити, тому що олівець прикривав його, але схоже, що майже не існує жодної альтернативи опинитися в кольорах, які я забарвив. Їх гістограми розташовані прямо проти осі значення і немає місця для жодної області під ними.

Вчитель : Давайте продовжимо цю думку. Якби я сказав вам гіпотетично, що вимірювання має зміщення , і попросив вас вибрати, яка з цих трьох гістограм була найвірогіднішою, що це було б?2

Учень : Перший - блакитний. Це найбільше поширення, і це єдине, де здається, мають будь-який шанс виникнути.2

Вчитель : А як щодо значення у рукописі?0.1

Учень : Хммм ... це вже інша історія. Усі три гістограми знаходяться досить високо над землею на рівні .0.1

Вчитель : Добре, досить справедливо. Але припустимо, я сказав вам, що значення було десь близько , наприклад, від до . Чи допоможе це вам прочитати деякі ймовірності з цих графіків?0 0,20.100.2

Учень : Звичайно, бо я можу використовувати зони. Я просто повинен оцінити площі під кожною кривою між і . Але це виглядає досить важко.0,200.2

Вчитель : Не потрібно так далеко йти. Чи можете ви просто сказати, яка площа найбільша?

Студент : Той, що знаходиться під найвищою кривою, звичайно. Всі три області мають однакову основу, тому чим вище крива, тим більше площі під нею та основою. Це означає, що найвища гістограма - та, яку я намалював, з червоними тире - є найімовірнішою з зміщенням . Я думаю, я бачу, куди ти йдеш з цим, але я трохи стурбований: чи не потрібно мені переглядати всі гістограми для всіх альтернатив, а не лише одну чи дві, показані тут? Як я могла це зробити?0.1

Вчитель : Ти добре підбираєш схеми, тож скажи мені: коли вимірювальний апарат робиться все точніше, що відбувається з його гістограмою?

Учень : Вона стає вужчою - ой, і вона також повинна бути вище, тому загальна її площа залишається однаковою. Це робить досить важким порівняння гістограм. Альтернативні всі вище, ніж нульова справа на , це очевидно. Але за іншими значеннями іноді альтернативи є вищими, а іноді - нижчими! Наприклад, [вказуючи на значення біля ], тут моя червона гістограма є найнижчою, жовта гістограма - найвищою, а початкова нульова гістограма знаходиться між ними. Але справа справа нуль найвищий.3 / 403/4

Вчитель : Взагалі порівняння гістограм - справа складна. Щоб допомогти нам це зробити, я попросив комп'ютер зробити інший графік: він розділив кожну з альтернативних висот гістограми (або "щільності") на нульову висоту гістограми, створивши значення, відомі як "коефіцієнти ймовірності". В результаті значення більше означає, що альтернатива є більш імовірною, тоді як значення менше означає, що альтернатива є менш імовірною. Він створив ще одну альтернативу: він більше розкинутий, ніж інші два, але все ж менш розгорнутий, ніж був оригінальний апарат.111

Малюнок 8: Коефіцієнти ймовірності

Вчитель (продовжує): Чи можете ви показати мені, де альтернативи мають більше шансів, ніж нульові?

Учень (розфарбування): Тут посередині, очевидно. А оскільки це вже не гістограми, я думаю, що ми повинні дивитись на висоти, а не на площі, тому я просто відзначаю діапазон значень на горизонтальній осі. Але як я можу знати, скільки середнього кольору забарвити? Де я припиняю фарбувати?

Малюнок 9: Діаграми коефіцієнта вірогідності відмітки

Вчитель : Не існує твердого правила. Все залежить від того, як ми плануємо використовувати свої висновки та наскільки шалені скептики. Але сидіти склавши руки і думати про те, що ви зробили: тепер ви розумієте , що результати з великим відношенням правдоподібності є доказом для альтернативи і результати з невеликими відношення правдоподібності свідчать проти альтернативи. Що я попрошу вас зробити, - це забарвлення в тій області, яка, наскільки це можливо, має малий шанс виникнути під нульовою гіпотезою і порівняно великий шанс виникнути за альтернативами. Повернувшись до першої кольорової діаграми, ще на початку нашої розмови ви пофарбували два хвости нуля, оскільки вони були "крайніми". Вони б все-таки добре зробили роботу?

Студент : Я не думаю, що так. Незважаючи на те, що вони були досить екстремальними та рідкісними під нульовою гіпотезою, вони практично неможливі для жодної з альтернатив. Якби моє нове вимірювання було, скажімо, , я думаю, я би зіштовхнувся зі скептиком і заперечую, що будь-яке поліпшення відбулося, навіть якщо було незвичним результатом у будь-якому випадку. Я хочу змінити це забарвлення. Ось - дозвольте мені ще один олівець.3.03.03.0

Малюнок 10: Покращена розмітка

Вчитель : Що це являє?

Студент : Ми почали з вами просити намалювати лише 10% площі під початковою гістограмою - тією, що описує нуль. Тож зараз я намалював 10% площі, де альтернативи, схоже, трапляються. Я думаю, що коли нове вимірювання в цій області, це говорить нам, що нам слід вірити альтернативі.

Вчитель : І як скептик повинен реагувати на це?

Учень : Скептик ніколи не повинен визнати, що він помиляється, чи не так? Але я думаю, що його віру слід трохи похитнути. Зрештою, ми влаштували це так, що хоча вимірювання може бути всередині області, яку я тільки що намалював, він має лише 10% шансу опинитися там, коли нуль відповідає дійсності. І є більший шанс бути там, коли альтернатива справжня. Я просто не можу сказати, наскільки більший цей шанс, тому що це залежатиме від того, наскільки вчений вдосконалив апарат. Я просто знаю, що вона більша. Тож докази були б проти скептиків.

Вчитель : Гаразд. Чи не заперечуєте ви підсумувати своє розуміння, щоб ми цілком зрозуміли, що ви дізналися?

Учень : Я дізнався, що для порівняння альтернативних гіпотез з недійсними гіпотезами ми повинні порівняти їхні гістограми. Ділимо щільність альтернатив на щільність нуля: саме так ви назвали "коефіцієнт ймовірності". Щоб зробити хороший тест, я повинен вибрати невелику кількість, як-от 10%, або все, що може бути достатньо, щоб похитнутись скептиком. Тоді я повинен знайти значення, де коефіцієнт ймовірності максимально високий, і пофарбувати їх до тих пір, поки 10% (або що б там не було) пофарбовано.

Вчитель : А як би ти використовував це забарвлення?

Учень : Як ви мені раніше нагадували, забарвлення має бути між вертикальними лініями. Значення (на горизонтальній осі), що лежать під забарвленням, є свідченням проти нульової гіпотези. Інші значення - ну, важко сказати, що вони можуть означати, не розглядаючи більш детально всі гістограми.

Вчитель : Що б ви зробили, повертаючись до значення у рукописі?0.1

Студент : Це в тій області, яку я востаннє забарвлював, тож я думаю, що вчений, мабуть, мав рацію, і апарат справді був удосконалений.

Вчитель : Останнє. Ваш висновок ґрунтувався на виборі 10% як критерію, або "розміру" тесту. Багато людей люблять використовувати замість цього 5%. Деякі вважають за краще 1%. Що ви могли їм сказати?

Студент : Я не міг зробити всі ці тести одразу! Ну, може, я міг певним чином. Я бачу, що незалежно від того, якого розміру повинен бути тест, я повинен почати розфарбовувати з , що в цьому сенсі є "найбільш крайнім" значенням, і працювати звідти в обох напрямках. Якби я зупинився прямо на - фактично спостерігалося значення - я думаю, я б пофарбував у зоні десь від до , скажімо . 5% та 1% людей могли відразу сказати, що я забарвлюю занадто багато: якби вони хотіли пофарбувати лише 5% чи 1%, вони могли, але вони не отримали б так само0,1 0,05 0,1 0,08 0,100.10.050.10.080.1. Вони не прийшли б до такого ж висновку, що і я: вони сказали б, що немає достатньо доказів того, що зміна насправді відбулася.

Вчитель : Ви щойно сказали мені, що насправді означають усі ці цитати на початку . З цього прикладу повинно бути очевидно, що вони, можливо, не можуть мати на увазі "більш екстремальний" або "більший або рівний" або "принаймні такий же великий", в сенсі мати більше значення або навіть мати значення там, де нульова щільність невелика. Вони справді мають на увазі ці речі у значенні великого коефіцієнта ймовірності, який ви описали. До речі, число навколо яке ви обчислили, називається "р-значення". Це можна правильно зрозуміти лише описаним вами способом: стосовно аналізу відносних висот гістограми - коефіцієнтів ймовірності.0.08

Учень : Дякую Я не впевнений, я все це повністю розумію, але ви мені дали багато про що подумати.

Вчитель : Якщо ви хочете піти далі, погляньте на лему Неймана-Пірсона . Ви, мабуть, готові зараз це зрозуміти.


Конспект

Багато тестів, які базуються на одній статистиці, як, наприклад, у діалоговому вікні, називатимуть це " " або " ". Це способи натякнути на те, як виглядає нульова гістограма, але вони є лише підказками: те, що ми називаємо цим числом, насправді не має значення. Узагальнена студентом побудова, як показано тут, показує, як вона пов'язана з р-значенням. Значення р - це найменший розмір тесту, який би спричинив спостереження що призведе до відкидання нульової гіпотези.t t = 0,1ztt=0.1

Малюнок 11: p-значення як площа.

На цьому малюнку, який масштабується для показу деталей, нульова гіпотеза побудована суцільно-синім кольором, а дві типові альтернативи побудовані пунктирними лініями. Затінена область, де ці альтернативи, як правило, набагато більше, ніж нульова. Затінення починається там, де відносна ймовірність альтернатив найбільша (при ). Затінення припиняється, коли досягається спостереження . Значення р - це область затіненої області під нульовою гістограмою: це шанс, припустивши, що нуль є істинним, спостерігати результат, коефіцієнт вірогідності якого, як правило, великий, незалежно від того, яка альтернатива трапляється істинною. Зокрема, ця конструкція тісно залежить від альтернативної гіпотези. Це неможливо здійснити без вказівки можливих альтернатив.т = 0,10t=0.1


4
Це чудово стосується мого коментаря до іншої відповіді, що жоден з попередніх відповідей на це питання взагалі не займався загальнозвучним "чи більш крайнім" аспектом р- значення. (Хоча відповідь "тестування на чай" містила хороший конкретний приклад.) Я особливо захоплююсь тим, як цей приклад був навмисно побудований, щоб підкреслити, що "більш екстремальний" може означати зовсім протилежне "більше" або "далі від нуля".
Срібляста рибка

4
Я б хотів, щоб вчителі та підручники не використовували словосполучення «чи більш екстремально». Два варіанти, про які я чув, можуть перефразовуватися як "більш сприятливі до " або "більш переконливі щодо ". У цьому випадку значення, що наближаються до нуля, справді були б переконливішими, що телескоп став більш надійним, але для нього потрібні деякі мовні акробатики (правдоподібно, але потенційно заплутані), щоб описати їх як "більш екстремальні". H 1H1H1
Срібляста рибка

3
Безперечно, як завжди, дякую, що знайшли час, щоб написати ці неймовірно корисні відповіді. Мені дуже цікаво, чому підручники ніколи не пишуться так, що пропонують десь поблизу цих рівнів ясності та інтуїції.
jeremy radcliff

Я думаю, що посилання на визначення ймовірності wrt цей приклад може бути корисним
baxx

1
Використовувати сарказм в коментарі, @baxx, небезпечно, тому що не вистачає місця, щоб ми могли це зробити ввічливо та елегантно. Тому зазвичай не гарно вважати, що коментар є саркастичним, якщо він прямо не каже вам про це. Просто припустіть, що коментарі покликані допомогти вам. Якщо ви просто слідкуєте за першим хітом пошуку, який я здійснив, я думаю, що на ваші запитання відповіли б.
whuber

44

Перш ніж торкатися цієї теми, я завжди переконуюсь, що студенти із задоволенням переходять між відсотками, десятковими знаками, коефіцієнтами і частками. Якщо вони цілком не задоволені цим, вони можуть дуже швидко заплутатися.

Мені подобається вперше пояснювати тестування гіпотез (і, отже, p-значень та тестової статистики) через класичний експеримент із чаєм Фішера. У мене є кілька причин для цього:

(i) Я думаю, що робота над експериментом та визначення термінів, які ми продовжуємо, має більше сенсу, що для початку саме визначення всіх цих термінів. (ii) Вам не потрібно чітко покладатися на розподіли ймовірностей, ділянки під кривою тощо, щоб подолати ключові моменти тестування гіпотез. (iii) Це смішне поняття "як або більш екстремальне, ніж те, що спостерігається" пояснює досить розумним чином (iv) Я вважаю, що студенти люблять розуміти історію, витоки та історію того, що вони вивчають, оскільки це робить його більш реальним ніж деякі абстрактні теорії. (v) Не має значення, з якої дисципліни чи предмету виходять студенти, вони можуть ставитися до прикладу чаю (NB. Деякі міжнародні студенти мають труднощі з цим особливо британським закладом чаю з молоком.)

[Примітка: Я спочатку отримав цю ідею з чудової статті Деніса Ліндлі "Аналіз експериментальних даних: Вдячність чаю та вина", в якій він демонструє, чому байєсівські методи перевершують класичні методи.]

Зворотна історія полягає в тому, що Мюріель Брістоль відвідує Фішера одного дня в 1920-х роках на Експериментальній станції Ротамстед за чашкою чаю. Коли Фішер поклав молоко в останню чергу, вона поскаржилася, сказавши, що вона також може сказати, чи було молоко налито першим (або останнім) і що вона надає перевагу першому. Щоб поставити це на тест, він розробив свій класичний експеримент з чаєм, де Мюриель подають пару чайних чашок, і вона повинна визначити, у яку молоко було додано перше. Це повторюється із шістьма парами чайних чашок. Її вибір є правильним (R) або неправильним (W), і її результати: RRRRRW.

Припустимо, що Муріель насправді просто здогадується і не має можливості дискримінації. Це називається нульовою гіпотезою . За словами Фішера, мета експерименту - дискредитувати цю нульову гіпотезу. Якщо Муріель здогадується, вона визначить чайну чашку правильно з вірогідністю 0,5 на кожному кроці, і як вони незалежні, спостережуваний результат має 0,5 = 0,016 (або 1/64). Тоді Фішер стверджує, що:6

(а) нульова гіпотеза (Маріель здогадується) є істинною, і відбулася подія з малою ймовірністю, або,

(b) нульова гіпотеза помилкова, і Мюриель має дискримінаційні повноваження.

Значення р (або значення ймовірності) - це ймовірність спостереження за цим результатом (RRRRRW), враховуючи, що нульова гіпотеза є істинною - це мала ймовірність, про яку йдеться в (а), вище. У цьому випадку це 0,016. Оскільки події з невеликою ймовірністю трапляються лише рідко (за визначенням), ситуація (b) може бути більш кращим поясненням того, що сталося, ніж ситуація (a). Коли ми відкидаємо нульову гіпотезу, ми насправді приймаємо протилежну гіпотезу, яку ми називаємо альтернативною гіпотезою. У цьому прикладі Мурієль має дискримінаційні повноваження - це альтернативна гіпотеза.

Важливим питанням є те, що ми класифікуємо як "малу" ймовірність? Який момент відключення, коли ми готові сказати, що подія навряд чи? Стандартний орієнтир становить 5% (0,05), і це називається рівнем значущості. Коли р-значення менше рівня значущості, ми відкидаємо нульову гіпотезу як хибну і приймаємо нашу альтернативну гіпотезу. Загальноприйнято стверджувати, що результат є "значущим", коли значення p менше, ніж рівень значущості, тобто коли ймовірність того, що ми спостерігали, що виникає з огляду на нульову гіпотезу, є істинною, ніж наша точка відсіку. Важливо бути зрозумілим, що використання 5% є повністю суб'єктивним (як і використання інших загальних рівнів значущості - 1% та 10%).

Фішер зрозумів, що це не працює; кожен можливий результат з однією неправильною парою однаково наводив на думку про дискримінаційні повноваження. Отже, відповідна ймовірність для ситуації (а) вище - 6 (0,5) ^ 6 = 0,094 (або 6/64), що зараз не є значущим при рівні значущості 5%. Для подолання цього Фішер стверджував, що якщо 1 помилка в 6 вважається доказом дискримінаційних повноважень, то так не є помилок, тобто результатів, які сильніше вказують на дискримінаційні повноваження, ніж спостережувані, слід включати при обчисленні p-значення. Це призвело до наступної поправки до міркувань:

(а) нульова гіпотеза (Маріель здогадується) є істинною, імовірність подій як, або більше, екстремальна, ніж спостерігається, мала, або

(b) нульова гіпотеза помилкова, і Мюриель має дискримінаційні повноваження.

Повернувшись до нашого експерименту з чаєм, ми виявимо, що значення р у цій програмі становить 7 (0,5) ^ 6 = 0,109, що все ще не є значущим при 5% порозі.

Потім я змушую студентів працювати з іншими прикладами, такими як метання монети, щоб визначити, чи справедлива монета чи ні. Це висвітлює поняття нульової / альтернативної гіпотези, p-значень та рівнів значущості. Потім переходимо до випадку неперервної змінної та вводимо поняття тестової статистики. Оскільки ми вже висвітлювали нормальний розподіл, звичайний нормальний розподіл і z-перетворення в глибину, це лише питання з'єднання кількох понять.

Окрім підрахунку статистики тестів, p-значень та прийняття рішення (значного / незначного), я змушую учнів працювати над опублікованими документами в заповненні пропущеної гри пробілів.


2
Я знаю, що я дещо відроджую дуже стару нитку, але ось це ... Я дуже насолоджувався вашою відповіддю, але я пропускаю частину значень у ній :( Чи можете ви, будь ласка, використати наведені приклади, щоб поговорити про це? Ніхто не відповідав на тест-частину
Сосі

@sosi Це, мабуть, тому, що р-значення набагато загальніші за t-значення. Це як би задавати питання про автомобілі, а потім про гальмо на Ford Fiesta.
вигадки

2
Відповідь дуже цікава (+1), але в кінці кількох речей плутати разом. 1. Що означає -значення "значущим на рівні 5%"? Або значення значення нижче 5%, або його немає. Я не бачу сенсу використовувати таке незрозуміле речення, залишаючи "значення" невизначеним. 2. Що означає "вирішити" мокріше чи ні -значення є суттєвим? Не представляється виправданим вводити теорію рішень у суміш таким чином (тим більше, що Фішер був сильним противником застосування рамки тестування Неймана-Пірсона в науках). p pppp
Олів'є

27

Жодна кількість словесних пояснень чи обчислень насправді не допомогла мені зрозуміти на рівні кишечника, що таке р-значення, але це дійсно перейшло у фокус для мене, як тільки я взяв курс, що передбачав моделювання. Це дало мені можливість реально бачити дані, породжені нульовою гіпотезою, та будувати схеми / тощо. симульованих зразків, а потім подивіться, де статистика мого зразка потрапила під час розподілу

Я думаю, що ключовою перевагою цього є те, що вона дозволяє учням забути про математику та тестові статистичні розподіли на хвилину та зосередити увагу на поняттях. Звичайно, це вимагає , щоб я дізнатися , як змоделювати цей матеріал, який може викликати проблеми для зовсім іншого набору студентів. Але це спрацювало на мене, і я безліч разів використовував моделювання, щоб допомогти пояснити статистику іншим з великим успіхом (наприклад, "Ось так виглядають ваші дані; ось так виглядає накладений розподіл Пуассона. Ви впевнені, що хочете зробити пуассонову регресію? ").

Це точно не відповідає на поставлені вами питання, але для мене, принаймні, це зробило тривіальністю.


10
Я щиро погоджуюся щодо використання моделювання для пояснення цього. Але лише невелика примітка на прикладі наприкінці: я вважаю, що людям (а не лише студентам) важко розрізнити будь-яке конкретне припущення щодо розподілу, наприклад, пуассона, між тим, що незначно розподіляються пуассони та розподіляються умовно пуассоном. Оскільки для регресійної моделі важливо лише остання, купу залежних змінних значень, які не є пуассоном, не обов'язково повинні викликати занепокоєння.
кон'югатприор

1
Я мушу зізнатися, що я цього не знав. Я дуже оцінив ваші коментарі на цьому веб-сайті за останні кілька днів вашого членства.
Метт Паркер

@MattParker Чи знаєте ви про будь-які навчальні ресурси, орієнтовані на використання моделювання для розвитку розуміння? Або це просто випадок збирання декількох сценаріїв python / R та проведення низки тестів?
baxx

1
@baxx На веб-сайті [Seeing Theory by Daniel Kunin] (students.brown.edu/seeing-theory/) є кілька цікавих інструментів для цього, але він все ще розробляється. Інакше, так, я значною мірою просто експериментував із вбудованими інструментами R для моделювання - використовуючи їх, щоб довести собі, як працює якийсь метод, або побачити, що буде, якщо предиктор заміниться випадковою змінною тощо. Вибачте, Я б хотів, щоб я знав кращі ресурси для цього!
Метт Паркер

@MattParker здорово дякую. Так - курятина і яйце в цьому, щоб побудувати експерименти, які (я гадаю?) Потрібно, принаймні, достатньо, щоб їх написати. Не хвилюйтесь, хоча ..... Просто перевірив той веб-сайт, на який ви пов’язали, це приємно, дякую
baxx

16

Приємним визначенням p-значення є "ймовірність дотримання статистики тесту, щонайменше такої ж великої, як обчислена за умови істинної гіпотези".

Проблема в тому, що вона потребує розуміння "статистики тесту" та "нульової гіпотези". Але це легко перетнути. Якщо нульова гіпотеза відповідає дійсності, зазвичай щось на кшталт "параметр від популяції A дорівнює параметру від сукупності B", і ви обчислюєте статистику для оцінки цих параметрів, яка ймовірність побачити тестову статистику, яка говорить: "вони це інший"?

Наприклад, якщо монета справедлива, яка ймовірність я бачу 60 голів із 100 кидок? Це тестування нульової гіпотези, "монета справедлива", або "р = .5", де р - ймовірність голов.

Тестовою статистикою в цьому випадку буде кількість голів.

Тепер я припускаю, що те, що ви називаєте "t-значення", є загальним "тестовою статистикою", а не значення "розподілу t". Вони не одне і те ж, і термін "t-значення" не (обов'язково) широко використовується і може заплутати.

Те, що ви називаєте "t-value" - це, мабуть, те, що я називаю "тестовою статистикою". Для того, щоб обчислити p-значення (пам’ятайте, це просто ймовірність), вам потрібен розподіл і значення, яке потрібно підключити до того розподілу, який поверне ймовірність. Як тільки ви це зробите, ймовірність повернення - це ваше значення p. Ви можете бачити, що вони пов'язані, тому що за одного і того ж розподілу різні тестові статистики повертають різні p-значення. Більш екстремальна статистика тестів поверне нижчі значення р, що свідчить більше про те, що нульова гіпотеза помилкова.

Тут я проігнорував питання про односторонні та двосторонні p-значення.


11

Уявіть, у вас є сумка, що містить 900 чорних мармурів і 100 білих, тобто 10% мармуру білого кольору. Тепер уявіть, що ви виймаєте 1 мармур, дивитесь на нього і записуєте його колір, виймаєте інший, записуєте його колір тощо. І робіть це 100 разів. В кінці цього процесу у вас з'явиться номер для білого мармуру, який, в ідеалі, ми б очікували, що це 10, тобто 10% від 100, але насправді це може бути 8, 13 або що-небудь просто через випадковість. Якщо ви повторите цей експеримент з вилученням мармуру багато, багато разів, а потім побудуєте гістограму кількості білого мармуру, проведеного за експеримент, ви виявите, що у вас крива Белла з центром приблизно 10.

Це представляє вашу 10% гіпотезу: з будь-яким мішком, що містить 1000 мармурів, з яких 10% - білого кольору, якщо ви випадково виймаєте 100 мармурів, ви знайдете 10 білих мармурів у виборі, дайте або візьміть 4 або близько того. Значення р - все в цьому "дай або візьми 4 або близько того". Скажімо, звертаючись до кривої Белла, створеної раніше, ви можете визначити, що менше 5% часу ви отримаєте 5 або менше білого мармуру, а ще <5% часу припадає на 15 або більше білого мармуру, тобто> 90% час, коли ваша 100 мармурова підбірка буде містити від 6 до 14 білих мармурів включно.

Тепер припускаючи, що хтось розбирає мішок з 1000 мармурами з невідомою кількістю білого мармуру, у нас є інструменти, щоб відповісти на ці запитання

i) Чи менше 100 білих мармурів?

ii) Чи є більше 100 білих мармурів?

iii) Чи містить мішок 100 білих мармурів?

Просто дістаньте з мішка 100 мармурів і порахуйте, скільки цього зразка білого кольору.

a) Якщо у зразку є 6-14 білих, ви не можете відкинути гіпотезу про те, що в мішку є 100 білих мармурів і відповідні значення p для 6 по 14 становитимуть> 0,05.

b) Якщо у зразку є 5 або менше білих, ви можете відкинути гіпотезу про те, що в мішку є 100 білих мармурів, а відповідні значення p для 5 або менше становитимуть <0,05. Ви б очікували, що сумка містить <10% білого мармуру.

c) Якщо у зразку є 15 або більше білих, ви можете відкинути гіпотезу, що в мішку є 100 білих мармурів, а відповідні значення p для 15 і більше становитимуть <0,05. Ви б очікували, що сумка містить> 10% білого мармуру.

У відповідь на коментар Балтімарка

З огляду на наведений вище приклад, є приблизно:

4,8% шансів отримати 5 білих куль або менше

1,85% шансів на 4 або менше

0,55% шансу на 3 або менше

0,1% шансів на 2 або менше

6,25% шанс 15 і більше

3,25% шансів на 16 і більше

1,5% шанси 17 і більше

0,65% шанс 18 і більше

0,25% шансу 19 і більше

0,1% шанс 20 і більше

0,05% шанс 21 або більше

Ці числа були оцінені з емпіричного розподілу, породженого простим розпорядженням Монте-Карло у R та одержуваними квантовими елементами розподілу вибірки.

Для відповіді на початкове запитання, припустимо, ви намалюєте 5 білих кульок, є лише приблизно 4,8% шансів, що якщо сумка з 1000 мармурів дійсно містить 10% білих куль, ви витягнете лише 5 білих у зразку 100. Це дорівнює значенню ap <0,05. Тепер ви повинні вибрати між

i) Дійсно є 10% білих кульок у сумці, і я просто "не пощастив" намалювати так мало

або

ii) Я намалював так мало білих куль, що насправді не може бути 10% білих куль (відкидаю гіпотезу про 10% білих куль)


Перш за все, це лише великий приклад і насправді не пояснює пояснення поняття р-значення та тестової статистики. По-друге, ви просто стверджуєте, що якщо у вас менше 5 або більше 15 білих мармурів, ви відкидаєте нульову гіпотезу. Який ваш розподіл, з якого ви обчислюєте ці ймовірності? Це можна наблизити до нормальної відстані. з центром у 10, зі стандартним відхиленням 3. Ваші критерії відхилення майже не досить строгі.
Балтимарк

Я погодився б, що це лише приклад, і я правда, що я просто вибрав цифри 5 і 15 з повітря для ілюстративних цілей. Коли я встигну, опублікую другу відповідь, яка, сподіваюся, буде більш повною.
babelproofreader

10

Те, що p-значення не говорить вам, наскільки вірогідне, що нульова гіпотеза відповідає дійсності. В рамках традиційної системи тестування значущості (Фішера) ми спочатку обчислюємо ймовірність спостереження за даними, припускаючи, що нульова гіпотеза є істинною, це значення р. Інтуїтивно зрозуміло, що тоді припустити, що нульова гіпотеза є помилковою, якщо дані є достатньо малоймовірними, щоб їх можна було спостерігати під нульовою гіпотезою. Це цілком розумно. Статистики традиційно використовують поріг та "відкидають нульову гіпотезу на рівні 95% значущості", якщо (1 - p)> 0,95; однак це лише умовність, яка виявилася розумною на практиці - це не означає, що існує менше 5% ймовірності, що нульова гіпотеза помилкова (і тому 95% ймовірність того, що альтернативна гіпотеза є істинною).

Зображення функції f (), яка відображає значення p на ймовірність того, що альтернативна гіпотеза є істинною. Було б розумно стверджувати, що ця функція суворо зменшується (така, що чим більш ймовірні спостереження під нульовою гіпотезою, тим менше ймовірність альтернативної гіпотези), і що вона дає значення від 0 до 1 (оскільки вона дає оцінку ймовірності). Однак це все, що ми знаємо про f (), тому, хоча існує взаємозв'язок між р і ймовірністю того, що альтернативна гіпотеза є істинною, вона не калібрується. Це означає, що ми не можемо використовувати p-значення для складання кількісних тверджень про правдоподібність гіпотез nulll та alternatve.

Caveat lector: Насправді в рамках частотистських рамків говорити про ймовірність того, що гіпотеза є істинною, оскільки це не випадкова величина - вона є істинною, або її немає. Тому там, де я говорив про ймовірність істинності гіпотези, я неявно перейшов до байєсівської інтерпретації. Неправильно змішувати байесівську та частолістську, проте завжди існує спокуса зробити це, оскільки те, що ми насправді хочемо, є кількісним показником відносної правдоподібності / ймовірності гіпотез. Але це не те, що забезпечує р-значення.


7

У статистиці ніколи не можна сказати, що щось є абсолютно певним, тому статистики використовують інший підхід, щоб оцінити, чи справжня гіпотеза чи ні. Вони намагаються відхилити всі інші гіпотези, які не підтримуються даними.

Для цього статистичні тести мають нульову гіпотезу та альтернативну гіпотезу. Значення р, повідомлене в статистичному тесті, є ймовірністю результату, враховуючи, що нульова гіпотеза була правильною. Ось чому ми хочемо малих p-значень. Чим вони менші, тим менше ймовірний результат, якби нульова гіпотеза була правильною. Якщо значення p досить мале (тобто, мабуть, результат не відбувся б, якщо нульова гіпотеза була правильною), то нульова гіпотеза відхиляється.

Таким чином, нульові гіпотези можуть бути сформульовані та згодом відхилені. Якщо нульова гіпотеза відхилена, ви приймаєте альтернативну гіпотезу як найкраще пояснення. Пам'ятайте, хоча, що альтернативна гіпотеза ніколи не є певною, оскільки нульова гіпотеза могла випадково створити результати.


p-значення - це ймовірність отримання результату як більш або "крайнього", ніж наведений результат, а не реального результату. p-значення - а не (T - тестова статистика, і t - його спостережуване значення). Pr(Tt|H0)Pr(T=t|H0)
ймовірністьлогічний

5

Мені трохи не вдається відродити стару тему, але я стрибнув звідси , тому публікую це як відповідь на запитання у посиланні.

Значення р - конкретний термін, не повинно бути місця для непорозумінь. Але, якось містично, що розмовні переклади визначення р-значення призводять до багатьох різних помилок. Я думаю, що корінь проблеми полягає у використанні словосполучень "принаймні настільки ж шкідливих для нульової гіпотези" або "принаймні настільки ж крайніх, як у ваших даних вибірки" тощо.

Наприклад, говорить Вікіпедія

... р-значення - це ймовірність отримання спостережуваних результатів вибірки (або більш екстремальний результат), коли нульова гіпотеза насправді відповідає дійсності.

Значення -значення розмивається, коли люди вперше натрапляють на «(чи більш екстремальний результат)» і починають думати « більше екстремейну ?».p

Я вважаю, що краще залишити "більш крайній результат" на щось на зразок непрямого мовного акту . Отже, мій прийом є

Значення р - це ймовірність побачити те, що ви бачите в «уявному світі», де нульова гіпотеза є істинною.

Щоб зробити ідею конкретною, припустимо, ви маєте вибірку, xщо складається з 10 спостережень, і ви припускаєте, що середнє значення сукупності становить . Так, у вашому гіпотезованому світі розподіл населення становить .μ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

Ви обчислюєте t-stat як , і дізнаєтесь, щоt0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

Отже, яка ймовірність спостереженняцілих 2,97 ("екстремальніший" тут) у уявному світі? У уявному світі , таким чином, р-значення повинно бути |t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Оскільки р-значення невелике, дуже малоймовірним є те, що зразок xбув би відібраний у світі гіпотез. Тому ми робимо висновок, що малоймовірно, що гіпотезований світ насправді був справжнім світом.


2
+1, але коли ви пишете "ймовірність побачити побачене" та опускаєте "більш крайню" частину, це речення стає суворо кажучи хибним (і потенційно оманливим, навіть якщо можливо менш заплутаним). Це не ймовірність побачити те, що ти бачиш (зазвичай це нуль). Це ймовірність побачити те, що ти бачиш "або більш екстремальним". Незважаючи на те, що це може бути заплутаним для багатьох, він все ще має вирішальне значення (і можна нескінченно сперечатися про ступінь суб'єктивності, який ховається за цією "більш крайньою" формулюванням).
амеба

@amoeba Я вважав, що при наданні належного прикладу він може слугувати проксі-сервісом для "отримання спостережуваних результатів вибірки (або більш екстремального результату)". Можливо, потрібні кращі формулювання.
Хашаа

1
Я збирався зробити те саме спостереження, що і @amoeba; "або більш екстремальна" частина добре обробляється прикладом у відповідях студентських висот та відповідей на чаювання, але я не думаю, що жодна відповідь у цій темі не вплинула на чітке загальне пояснення цього, зокрема, яке стосується різних альтернативних гіпотез. Я погоджуюся з цією відповіддю, яка передбачає, що «або більш екстремальна» частина є концептуальною точкою для багатьох студентів.
Срібна рибка

@Silverfish: і не тільки студенти. Скільки я прочитав рейтингів на байесівських та частотних відвідувачів, які обговорюють питання суб'єктивності / об'єктивності цього "більш екстремального" біта!
амеба

1
@Silver Я погоджуюся з вашою критикою і опублікував відповідь, намагаючись вирішити цю проблему. "Або більш екстремальний" - це сама суть справи.
whuber

4

Я вважаю корисним дотримуватися послідовності, в якій ви пояснюєте поняття в такому порядку: (1) Оцінка z і пропорції вище та нижче бала z, приймаючи нормальну криву. (2) Поняття розподілу вибірки та z оцінка для даної вибірки означають, коли відоме стандартне відхилення сукупності (а звідси - один зразок z тест) (3) Однопробовий t-тест та ймовірність проведення a вибірка означає, коли стандартне відхилення населення невідоме (рясніє розповідями про таємну особу певного промислового статистика і чому Гіннес корисний для статистики). (4) Двопробний t-тест та розподіл вибірки середніх різниць. Легкість, з якою вступники опановують t-тест, має багато спільного з основою, закладеною під час підготовки до цієї теми.

/ * викладач режиму жаху студентів вимкнено * /


4

Я також знайшов симуляції корисними в навчанні.

Ось моделювання для, мабуть, найосновнішого випадку, коли ми відбираємо разів з (отже, простота відома простота ) і тест проти лівої -стороння альтернатива.nN(μ,1)σ2=1H0:μ=μ0

Тоді -статистичний є під , так що значення значення просто або в Р.ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

При моделюванні в частку разів дані, що генеруються під нульовим (тут ), дають вибіркові засоби, що зберігаються в них, менші (тобто, "більш екстремальні" в цьому лівобічний тест), ніж обчислений із спостережуваних даних.N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

Що означає "p-значення" стосовно гіпотези, що перевіряється?

В онтологічному сенсі (що таке істина?) Це нічого не означає . Будь-яке тестування гіпотез базується на неперевірених припущеннях . Зазвичай це частина самого тесту, але також є частиною будь-якої моделі, яку ви використовуєте (наприклад, у регресійній моделі). Оскільки ми просто припускаємо це, ми не можемо знати, чи є причина, чому р-значення нижче нашого порогу, тому що нуль помилковий. Це не послідовність безумовного висновку, що через низьке значення p ми повинні відхилити нуль. Наприклад, щось у моделі може бути неправильним.

У гносеологічному сенсі (чого ми можемо навчитися?) Це означає щось . Ви здобуваєте знання залежно від того, що неперевірені приміщення є правдивими. Оскільки (принаймні, до цього часу) ми не можемо довести кожну побудову реальності, всі наші знання будуть обов'язково умовними. Ми ніколи не потрапимо до "правди".


-1

Я думаю, що приклади, що стосуються мармуру чи монет або вимірювання висоти, можуть бути чудовими для занять математикою, але вони не гарні для побудови інтуїції. Студенти коледжу люблять ставити під сумнів суспільство, правда? Як щодо використання політичного прикладу?

Скажімо, політичний кандидат провів кампанію, обіцяючи, що якась політика допоможе економіці. Її обрали, вона прийняла політику, і через 2 роки економіка процвітає. Вона готується до перевиборів і стверджує, що її політика є причиною процвітання кожного. Ви повинні її переобрати?

Вдумливий громадянин повинен сказати: "ну це правда, що економіка працює добре, але чи ми можемо насправді віднести це до вашої політики?" Щоб по-справжньому відповісти на це, ми повинні розглянути питання "чи добре зробила б економіку за останні 2 роки?" Якщо відповідь "так" (наприклад, економіка процвітає через якийсь новий непов'язаний технологічний розвиток), то ми відкидаємо пояснення політиком даних.

Тобто, щоб вивчити одну гіпотезу (політика допомогла економіці), ми повинні побудувати модель світу, де ця гіпотеза є нульовою (політика ніколи не приймалася). Потім ми робимо прогноз за цією моделлю. Ми називаємо ймовірність спостереження за цими даними в тому альтернативному світі значенням p . Якщо значення р занадто високе, то нас не переконує гіпотеза - політика не мала жодного значення. Якщо значення p низьке, то ми довіряємо гіпотезі - політика була важливою.


1
Я не погоджуюся з тим, що р визначається як "Ми називаємо ймовірність спостереження за цими даними в цьому альтернативному світі значенням p", а також силою зробленого висновку (особливо, якщо не відхилити нуль).
Срібна рибка

@Silverfish Не могли б ви детальніше розробитись? Напевно, було б правильніше називати р-значенням ймовірність зробити це спостереження АБО більш екстремальним спостереженням. Але це звучить так, що ви маєте глибшу критику.
cgreen

1
Оскільки в оригінальному запитанні є питання, що таке р-значення, я вважав, що чітке визначення цього значення є важливим. Просто сказати "більш екстремальний" сам по собі не дуже корисний, не пояснюючи, що може означати "більш екстремальний" - це слабкість більшості відповідей у ​​цій темі. Тільки відповідь Уубера та "чайний тест", здається, справді пояснюють, чому "більш екстремальний" також має значення.
Срібна рибка

Я також вважав, що ваші висновки формулюються занадто сильно. Якщо ми відкидаємо нуль, ми маємо вагомі докази проти нього, але не знаємо, що це неправда. Коли ми не можемо відкинути нуль, це, безумовно, не означає, що нуль є істинним (хоча це цілком може бути). Як більш загальний коментар, я відчуваю, що тест, який ви описуєте, досить абстрактно, навряд чи буде зрозумілим для того, хто навчається, який тільки вчиться робити тест. Відсутність чітко визначеної статистики тесту не співпадає з оригінальним запитанням, яке запитує, як інтерпретувати t -statistic.
Срібна рибка

Особливістю цієї відповіді, яка мені дуже подобається, є чітке пояснення того, що р-значення обчислюються за допомогою нульової моделі, навіть якщо ми (суб'єктивно) не вважаємо, що нульова модель насправді відповідає дійсності. Я думаю, що статистика тестів, розрахована за моделлю, є ключовим моментом, з яким багато студентів борються.
Срібна рибка

-1

Мені доводиться доводити наступний аргумент, щоб він міг містити помилки, але мені дуже хочеться вкласти свої два центи (сподіваюся, незабаром оновлю його суворим доказом). Ще один спосіб погляду на -значенняp

p -значення - Статистика така, що де - функція розподілу під .X

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

Зокрема, якщо має постійний розподіл і ви не використовуєте наближення, тоX

  1. Кожне -значення - це статистика з рівномірним розподілом на іp[0,1]
  2. Кожна статистика з рівномірним розподілом на - -значення.[0,1]p

Ви можете вважати це узагальненим описом значень.p


Це визначення має сенс лише для дискретних розподілів (і тоді це невірно), оскільки друга поява " " дає зрозуміти, що воно стосується ймовірностей, а не щільності ймовірності. Більше того, існує надзвичайно мало розподілів (якщо такі є), які мають вказане властивість, що дозволяє припустити, що у виписці повинні бути помилки друкарські. Що стосується ваших наступних тверджень, (1) ідеально відповідає дійсності, але (2) - ні, якщо ви не дозволите нульовій гіпотезі залежати від статистики! P
whuber

@whuber Дякую за вклад. Я відредагував визначення, і воно має зараз мати більше сенсу!
nalzok

1
Це має сенс, дякую: якщо я читаю це правильно, він стверджує, що нульовий розподіл є рівномірним наОднак це фіксує лише частину властивостей p-значень; воно не характеризує р-значень; і це нічого не говорить про те, що вони означають, або як їх інтерпретувати. Розгляньте вивчення деяких інших відповідей у ​​цій нитці для отримання інформації про те, чого немає. X[0,1].
whuber

Ось приклад, який вам може бути цікавим. Сім'я розподілу є Уніфікованою для нульова гіпотеза - а альтернатива - її доповнення. Розглянемо випадковий зразокВизначте статистикуОчевидно, це має рівномірний розподіл на під але в якому сенсі це р-значення? Який відповідний тест на гіпотезу? Припустимо, ми беремо вибірку розміром і спостерігаємо значення ти стверджуєш, що р-значення дорівнює ?? θ R , θ = 0 , X = ( X 1 , , X n ) . X ( X ) = X 1 . [ 0 , 1 ] H 0 : n = 1 X 1 = - 2 : - 2(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2
whuber

-4

Значення р не настільки загадкове, як вважає більшість аналітиків. Це спосіб не обчислювати довірчий інтервал для t-тесту, а просто визначати рівень довіри, з яким нульова гіпотеза може бути відхилена.

ІЛЮСТРАЦІЯ. Ви запускаєте тест. Значення р дорівнює 0,1866 для змінної Q, 0,0023 для R-змінної. (Вони виражені у%).

Якщо ви випробовуєте 95-відсотковий рівень довіри, щоб відхилити нульовий гіпо;

для Q: 100-18,66 = 81,34%

для R: 100-0,23 = 99,77%.

При рівні довіри 95% Q дає 81,34% впевненості для відхилення. Це падає нижче 95% і є неприйнятним. ПРИЙНІТЬ НУЛЬ.

R дає 99,77% впевненості для відхилення нуля. Ясно вище бажаних 95%. Таким чином, ми відхиляємо нуль.

Я просто проілюстрував читання p-значення "зворотним способом" вимірювання його до рівня довіри, на якому ми відкидаємо нульовий гіпо.


6
Ласкаво просимо на сайт. Що ви маєте на увазі під -змінною та -змінною? Будь ласка, поясніть. Також використання фрази "прийняти нуль" зазвичай вважається досить небажаним, навіть оманливим. RQR
кардинал

@cardinal вказує на важливий момент. Ви не збираєтесь приймати нуль.
Патрік Куломбе

-8

****** p значення при тестуванні гіпотези вимірює чутливість тесту. Чим менше значення p, тим більша чутливість. якщо рівень значущості встановлено на рівні 0,05, значення p 0,0001 вказує на високу ймовірність правильності результатів тесту ******


6
-1 Це явно неправильно. Ви можете спочатку прочитати відповіді, які проголосували вище.
Момо
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.