Навіщо продовжувати викладати та використовувати тестування гіпотез (коли доступні інтервали довіри)?


56

Навіщо продовжувати викладати і використовувати тестування гіпотез (з усіма її складними поняттями і які є одними з найбільш статистичних гріхів) для проблем, де існує оцінювач інтервалу (впевненість, завантажувальний стан, достовірність чи інше)? Яке найкраще пояснення (якщо воно є), яке слід дати студентам? Тільки традиція? Думки будуть дуже вітатися.



4
Ці цитати дуже доречні. Усі моделі помиляються, але деякі корисні.
mpiktas

Відповіді:


60

Це моя особиста думка, тому я не впевнений, що вона належним чином кваліфікується як відповідь.

Чому ми повинні вчити тестування гіпотез?

Одним із найважливіших причин, коротше, є те, що, швидше за все, за час, коли вам потрібно буде прочитати це речення, сотні, якщо не тисячі (або мільйони) тестів гіпотез були проведені в радіусі 10 футів, де ви сидите.

Ваш мобільний телефон, безумовно, використовує тест на коефіцієнт ймовірності, щоб вирішити, чи знаходиться він у межах діапазону базової станції. WiFi обладнання вашого ноутбука робить те саме, що спілкується з вашим маршрутизатором.

Мікрохвильова піч, яку ви використовували для автоматичного розігрівання того дворічного шматка піци, використовували тест гіпотези, щоб визначити, коли ваша піца була досить гарячою.

Система управління тягою вашого автомобіля запустилася, коли ви давали йому занадто багато газу на крижаній дорозі, або система попередження тиску в шинах повідомляє про те, що шина на задній стороні пасажира була аномально низькою, а ваші фари включалися автоматично близько 5: 19 вечора, як сутінки наставали.

Ваш iPad рендерує цю сторінку в альбомному форматі на основі показань (шумних) акселерометрів.

Компанія з вашої кредитної картки вимкнула вашу картку, коли "ви" придбали телевізор з плоским екраном у Best Buy у Техасі та діамантове кільце за 2000 доларів у Залісі у торговому центрі штату Вашингтон протягом декількох годин після покупки обіду, бензину та фільму біля вашого будинку в передмісті Пітсбурга.

Сотні тисяч біт, які були надіслані для відображення цієї веб-сторінки у вашому браузері, кожен окремо проходили тест гіпотези, щоб визначити, чи є вони, найімовірніше, 0 або 1 (на додаток до чудового виправлення помилок).

Подивіться праворуч лише трохи на ті "пов'язані" теми.

Усі ці речі "траплялися" завдяки тестам на гіпотези . Для багатьох з цих речей може бути розрахована деяка інтервальна оцінка деякого параметра. Але, особливо для автоматизованих виробничих процесів, використання та розуміння тестування гіпотез є вирішальним.


На більш теоретичному статистичному рівні важлива концепція статистичної влади виникає досить природно з рамки тестування теоретичних рішень / гіпотез. Крім того, я вважаю, що "навіть" чистий математик може оцінити красу і простоту леми Неймана-Пірсона та її доказ.

Це не означає, що тестування гіпотез викладається чи розуміється добре. За великим рахунком, це не так. І хоча я погоджуюсь, що, особливо в медичних науках, - звітування про інтервалідні оцінки разом із розмірами ефектів та поняттями практичної та статистичної значущості майже загально переважні перед будь-яким тестом формальної гіпотези, це не означає, що тестування гіпотез та пов'язане з цим поняття не важливі і цікаві самі по собі.


2
Дякуємо за цікавий список прикладів. З огляду на мету питання: Щоб сприяти дискусії щодо перегляду наших курсів статистики, ми спробуємо отримати більш детальну інформацію про впровадження тестування на сучасних пристроях, може стати великою мотивацією для наших студентів-інженерів.
Washington S. Silva

3
Більшість ваших прикладів насправді не потребують тестування класичної гіпотези (маючи на увазі фіксований рівень довіри), а процедуру прийняття рішення.
kjetil b halvorsen

1
Шановний @kjetil: Чесно кажучи, тут є трохи суворим. Дійсно, питання не задає нічого конкретного щодо тестування класичної гіпотези, і моя відповідь також не робить цього припущення! ( Тестування гіпотез тут тлумачиться широко і з поважною причиною.)
кардинал

1
Мені потрібно придбати мікрохвильову піч з автоматичним розігріванням.
jmbejara

2
Це дуже красномовна відповідь, але я був би дуже вдячний, якби ви трохи більше пояснили, чому всі ці речі є "тестами на гіпотезу". Я розумію, що всі ваші приклади стосуються автоматизованих бінарних рішень. Я думаю, що в більшості випадків якусь величину вимірюють, а потім порівнюють із обрізкою, щоб вирішити, чи є вона вище або нижче (і, отже, приймати рішення). Це вже кваліфікується як "тест на гіпотези" для вас, чи ви мали на увазі щось інше? Я здогадуюсь, коли ОП запитав, чому тестування гіпотез все ще викладається, вони не посилалися на просте визначення порогу.
амеба каже: Відновити Моніку

29

Я викладаю тести гіпотез з ряду причин. Одне є історичним, що їм доведеться зрозуміти велику частину попередніх досліджень, які вони читали, і розуміти тестування гіпотез. По-друге, це навіть те, що в сучасні часи його використовують деякі дослідники, часто неявно, під час проведення інших видів статистичного аналізу.

Але коли я викладаю це, я навчаю його в рамках побудови моделей, що ці припущення та оцінки є частинами будівельних моделей. Таким чином порівняно легко перейти до порівняння більш складних і теоретично цікавих моделей. Дослідження частіше підкоряють теорії одна проти одної, а не теорію проти нічого.

Гріхи тестування гіпотез властиві не математиці, а правильному використанню цих розрахунків. Там, де вони в основному лежать, - це надмірна залежність і неправильне тлумачення. Якщо переважна більшість наївних дослідників використовувала виключно інтервальну оцінку, не визнаючи жодного зв’язку з цими речами, ми називаємо гіпотезами, ми можемо називати це гріхом.


+1, спасибі Добре сперечався. Але у вступних курсах відбору моделі немає, у строгому розумінні. Ви могли б навести інші контексти, придатні для впровадження тестування гіпотез? Прийнятно повідомляти про результати тесту без оцінки потужності?
Washington S. Silva

2
Відсутність вибору моделі на вступних курсах не є необхідністю. Якщо ви плануєте змінити курс, вважайте це гарним місцем для початку.
Іван

20

Я особисто вважаю, що нам буде краще без тестів на гіпотези. Єдине місце, де я можу подумати, де тести гіпотез пропонують щось унікальне та корисне, - це область тестування гіпотез множинної свободи. Приклади включають ANOVA для порівняння більш ніж двох груп, одночасні тести, що поєднують основні ефекти та взаємодії (тести загального ефекту), і одночасні тести, що поєднують лінійні та нелінійні терміни, пов'язані з безперервним предиктором (множинне тестування df на асоціацію). Для простих речей оцінку інтервалу простіше і набагато рідше вводити в оману, ніж . Як сказано в класичному документі Відсутність доказів не є свідченням його відсутності , велике значення не містить інформації. P P PPPP-цінки лише наводять докази проти гіпотези, ніколи її не на користь (відповідь Фішера на запитання, як інтерпретувати велику -значення, було "Отримати більше даних"). Довірчий або надійний інтервал робить дослідника більш чесним, описуючи, скільки вона не знає.P


2
Я не хотів би, щоб у деяких полях "Єдине місце ..." та "Включити ANOVA ..." означає, що ви щойно охопили величезну кількість статистичних інструментів.
Фоміт

4
Я думаю, що на цій посаді можна багато чого сказати. Зважаючи на те, що багато дослідників переважно хочуть дізнатися про закономірності їхніх даних, я часто замислювався, чи можна розумно відкладати велику кількість статистичних даних і просто використовувати графіки даних. (Звичайно, це передбачає, що сюжети були б зроблені майстерно та уважно, і тести гіпотези були б не такими поганими, якби ми могли про них сказати.)
gung - Відновити Моніку

1
Я не погоджуюся з цитатою "відсутність доказів не є свідченням відсутності". Відсутність доказів для ефекту не є доказом того, що ніякого ефекту не існує, але, безумовно, є свідченням проти цього ефекту. Питання полягає в тому, скільки свідчень проти ефекту має незначний результат. Я думаю, що проблема з великими р-значеннями полягає в тому, що у звичайному випадку розподілу великі р-значення є свідченням гіпотези, оскільки вони є монотонною функцією корисності . А оскільки нормальний розподіл настільки поширений, люди бачать це і екстраполюють
ймовірністьлогічного

5
Великий означає одну з багатьох речей: різниця невелика, мінливість занадто велика або розмір вибірки занадто малий. Звідси і назва документа про відсутність доказів. P
Френк Харрелл

11

Я думаю, це залежить від того, про яке тестування гіпотез ти говориш. "Класичне" тестування гіпотез (Неймана-Пірсона) вважається несправним, оскільки воно не належним чином визначає те, що насправді сталося, коли ви робили тест . Натомість він призначений для роботи "незалежно" від того, що ви насправді бачили в довгостроковій перспективі. Але недотримання умови може призвести до оманливих результатів в окремому випадку. Це просто тому, що процедура "не піклується" про окремий випадок, на довгостроковій перспективі.

Тестування гіпотез може бути викладено в теоретичних рамках рішення, що, на мою думку, є набагато кращим способом зрозуміти це. Можна відновити проблему як два рішення:

  1. "Я буду діяти так, ніби - це правда"H0
  2. "Я буду діяти так, ніби вірно"HA

Рамки для прийняття рішень набагато простіше зрозуміти, оскільки вона чітко розмежовує поняття "що ти будеш робити?" і "що таке правда?" (за попередньою інформацією).

Ви навіть можете застосувати "теорію рішення" (DT) до свого питання. Але для того, щоб зупинити тестування гіпотез, DT каже, що вам потрібно мати альтернативне рішення. Тож питання: якщо відмовитися від тестування гіпотез, що має зайняти її місце? Я не можу придумати відповіді на це питання. Я можу лише думати про альтернативні способи тестування гіпотез.

(Примітка: в контексті перевірки гіпотез, даних, розподіл вибірки, попереднього розподілу і функції втрат все апріорної інформації , оскільки вони отримані до для прийняття рішення.)


Моєю метою було зібрати думку експертів з метою посилення дискусій щодо перегляду курсів статистики, які тривають в інституті, де я працюю в Бразилії. Цілі досягаються, причому думки також викладені у @cardinal, @Andrew Robinson, @probabilityislogic та @JMS. Очевидно, що тестування гіпотез (через NP, DT або Byes) повинно бути дуже добре викладене, але завдання, як створити курси, як це доречно, з огляду на універсальність викладання статистики, є однаковою або складнішою, ніж сама методика. Дякую за ваш внесок.
Washington S. Silva

1
Я люблю теорію рішень, якщо це робити суворо з використанням байєсівських методів, які включають розумні функції втрат / корисності. Якщо такі функції недоступні, я, як правило, віддаю перевагу оцінці інтервалу.
Френк Харрелл

@FrankHarrell - Я погоджуюся, але я б все-таки класифікував інтервальну оцінку як своєрідну "теорію рішень", де функція корисності зазвичай базується на інформаційному вмісті (тобто висновки, які використовують більше інформації, яку ми маємо, краще) - і це оптимізовано шляхом заднього розподілу, і, можливо, заднього прогнозування, якщо прогнозування представляє інтерес. Інтервальна оцінка дає зручний підсумок задньої частини. І хороші довірчі інтервали (наприклад, на основі MLE) дають дуже гарне наближення до цього, коли інформації, що знаходиться поза наявними даними, є мало
ймовірністьлогічний

Зазвичай ви використовуєте інтервальну оцінку, коли не маєте на увазі конкретного рішення (це, мабуть, головна причина, чому у вас не було б розумної функції втрат), і тому вам потрібно обслуговувати багато різних сценаріїв.
ймовірністьілогічний

9

Якби я був жорстоким частотологом, я нагадав би вам, що довірчі інтервали доволі регулярно є просто перевернутими тестами гіпотез, тобто коли 95% інтервал є просто іншим способом опису всіх пунктів, які тест, пов’язаний з вашими даними, не відхилить у .05 рівень. У цих ситуаціях перевага однієї над іншою є питанням експозиції, а не методу.

Зараз експозиція важлива, звичайно, але я думаю, що це було б досить гарним аргументом. Дуже чітко і уточнювально пояснювати два підходи як перетворення одного і того ж висновку з різних точок зору. (Фактично те, що не всі оцінювачі інтервалів є перевернутими тестами, є нелегким, але не особливо незручним фактом, педагогічно кажучи).

Набагато серйозніші наслідки пов'язані з рішенням, що обумовлюється спостереженнями, як зазначено вище. Однак навіть при відступі часто лікар може зауважити, що існує безліч ситуацій (можливо, не більшості), коли обумовлення цих спостережень було б нерозумним або неосяжним. Для тих, хто налаштовує HT / CI, є (не є «є») саме тим, що потрібно, і тому слід вчити як таке.


Формально кажучи, будь-який тест гіпотези з альфа-обмеженою швидкістю помилки типу I може бути перетворений на довірчий інтервал з параметром покриття (1-альфа) і навпаки, ні? Я не думаю, що ти повинен бути хардкор-частістом, щоб вірити, що це пов'язано з визначеннями. :-)
Кіт Уінштейн

3
@Keith Ніяких аргументів щодо визначень, але вам доведеться бути частотологом, щоб вважати їх більш ніж цікавими і, можливо, зручними бітами математики. Тобто, якщо ви вважаєте, що теоретичні властивості вибірки є життєво важливими для статистичного висновку, то ви (або повинні) будете однаково захоплені довірчими інтервалами та тестами гіпотез, оскільки, як ми згодні, вони мають цю симетрію. Моя була відповіддю на контраст запитуючих між "хорошими" CI та "поганими" HT. Об'єднуючи їх, я хотів переосмислити контрасти, висунуті в інших відповідях.
кон'югатприор

7

Викладаючи тестування гіпотез Неймана Пірсона студентам ранньої статистики, я часто намагався знайти це в його початковій обстановці: прийнятті рішень. Тоді в інфраструктурі типу 1 і типу 2 все має сенс, як і думка про те, що ви можете прийняти нульову гіпотезу.

Ми повинні прийняти рішення, ми думаємо, що результат нашого рішення можна покращити знанням параметра, у нас є лише оцінка цього параметра. Нам ще належить прийняти рішення. Тоді яке найкраще рішення прийняти в контексті оцінки параметра?

Мені здається, що в початковій постановці (прийнятті рішень в умовах невизначеності) тест гіпотези НП має ідеальний сенс. Див., Наприклад, N&P 1933 р., Зокрема, стор. 291.

Неймана та Пірсона. До проблеми найбільш ефективних тестів статистичних гіпотез. Філософські операції Лондонського королівського товариства. Серія A, що містить статті математичного чи фізичного характеру (1933), том. 231 С. 289-337


4

Тестування гіпотез є корисним способом вирішення багатьох питань: чи ефект від лікування нульовий чи ненульовий? Здатність між такими твердженнями, як ці, та статистичною моделлю чи процедурою (включаючи побудову оціночного інтервалу) є важливою для практиків, які я думаю.

Тут також зазначається, що інтервал довіри (у традиційному розумінні) не є по суті менш «схильним до гріхів», ніж тестування гіпотез - скільки учнів із вступної статистики знають реальне визначення довірчого інтервалу?

Можливо, проблема не є тестуванням гіпотез чи інтервальною оцінкою, оскільки це класичні версії тієї самої; рецепт Байєса уникає цього досить добре.


2
@JMS, "скільки студентів із вступної статистики знають реальне визначення інтервалу довіри?" Або, з цього питання, випускники докторантури.
кардинал

Досить! До речі, я не мав на увазі жодного копання студентів чи практиків жодних смужок. Але трохи розумно очікувати розумової гімнастики від того, хто не записався на просунуту статистику.
JMS

2
Скільки людей можуть сказати реальне визначення ІС? І скільки людей використовує їх послідовно з цим визначенням? Це занадто важко, щоб не думати, "параметр, ймовірно, буде в зазначеному інтервалі", - навіть якщо ви знаєте, що це не те, що CI.
ймовірністьлогічний

E sobre a prática обычно de não reportar-se оцінювання do
Washington S. Silva

1
Я намагався висловити те, що тести гіпотез, не супроводжувані оцінкою потужності, дуже сумнівні і що інтервальні оцінки не мають цього додаткового джерела ускладнень.
Washington S. Silva

2

Причиною є прийняття рішень. У більшості рішень ви або робите це чи ні. Ви можете продовжувати дивитись на інтервали протягом цілого дня, врешті-решт є момент, коли ви вирішите це зробити чи ні.

Тестування гіпотез прекрасно вписується в цю просту реальність ТАК / НІ.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.