Як пояснити тестування гіпотез для підлітків менше ніж за 10 хвилин?


18

Вже більше року я приділяю одногодинний клас "смак статистики". Кожен раз, коли я приїжджаю різну групу дітей, і я даю їм клас.

Тема заняття полягає в тому, що ми проводимо експеримент, в якому 10 малюків (хто любить пити кока-коли) отримують дві (без маркування) чашки, одну з кока-колою та одну з пепсі. Дітей пропонують на основі смаку і запаху визначити, в якій чашці є напій кока-кола.

Тоді мені потрібно пояснити їм, як вирішити, чи здогадуються діти, чи справді вони (або принаймні їх достатньо) справді мають змогу відчути різницю. Чи 10 з 10 успіхів досить хороші? що про 7 із 10?

Навіть після дачі цього класу в десятки разів (в різних варіаціях) я все ще не відчуваю, що знаю, як перенести цю концепцію так, як більшість класу отримає її.

Якщо у вас є ідеї щодо того, як поняття тестування гіпотез, нульової гіпотези, альтернативної гіпотези, регіонів відхилення тощо можна пояснити простим (!) Та інтуїтивним способом - я б хотів знати, як це зробити.


1
Іноді думка про "чому" допомагає краще зрозуміти "як", тому ви можете перевірити stats.stackexchange.com/questions/6966/…
Tim

5
(+1) Я думаю, це залежить від вашого визначення 10 хвилин !
кардинал

1
Кілька тижнів тому я спробував відповісти на це запитання - або хоча б одне надзвичайно подобається - на stats.stackexchange.com/a/130772 . Хіба це нитка не є дублікатом цього?
whuber

1
@cardinal - я маю на увазі буквально 10 хвилин. Для цього типу тем і для людей, які не мають досвіду - це ДУЖЕ короткий час. --------------- Шановний юбе - мені сподобалась ваша відповідь, але було б чудово, щоб студенти знали, що таке ймовірність та залежність між щільністю та площею. Це поняття, що навчаються студентам, але не для учнів середньої школи. Я не хочу, щоб вони повністю розуміли тестування гіпотез, але зберігати достатньо, щоб вони відчували це при прийнятті рішення про те, що означає кожен регіон відхилення.
Тал Галілі

4
Дякую за роз’яснення, Тал. Ви все ще вказуєте на те, що інша тема є дублікатом вашого запитання, але ви просто не бачили адекватної відповіді. Хорошим способом відмежувати своє запитання від того, що було б - надати конкретні вимоги щодо рівня експозиції та того, що ми можемо припустити, що аудиторія знає, як багато ви почали робити у своєму коментарі.
whuber

Відповіді:


10

Я думаю, слід почати з того, щоб запитати їх, що вони думають, що це насправді означає сказати про людину, що він чи вона здатна розповісти різницю між кока-колою та пепсі. Що може зробити така людина, що не можуть зробити інші?

Більшість із них не матиме такого визначення і не зможе створити його, якщо його запитають. Однак сенс цієї фрази - це те, що дає нам статистика, і це те, що ви можете запропонувати своєму класу "смак статистики".

Один із пунктів статистики - дати точну відповідь на питання: "що означає сказати комусь, що він чи вона здатна розповісти різницю між кока-колою та пепсі"

Відповідь: він чи вона краще, ніж машина здогадок, щоб класифікувати чашки в сліпому тесті. Машина здогадки не може визначити різницю, вона весь час просто здогадується. Машина здогадки є корисним винаходом для нас, оскільки ми знаємо, що вона не має можливості. Результати машини здогадки корисні, оскільки вони показують, чого слід очікувати від того, кому не вистачає можливостей, на які ми перевіряємо.

Щоб перевірити, чи здатна людина визначити різницю між кока-колою та пепсі, треба порівняти класифікацію чашок у сліпому тесті з класифікацією, яку зробила б машина здогадки. Тільки якщо s / він краще, ніж машина здогадувань, s / він здатний визначити різницю.

Як же тоді визначити, чи є один результат кращим за інший? Що робити, якщо вони майже однакові?

Якщо дві людини класифікують невелику кількість чашок, не дуже справедливо говорити, що одна краща за іншу, якщо результати майже однакові. Можливо, сьогодні переможцю просто пощастило, а результати були б зворотні, якби завтра повторився конкурс?

Якщо ми маємо отримати достовірний результат, він не може базуватися на крихітній кількості класифікацій, оскільки тоді шанс може визначити результат. Пам'ятайте, вам не потрібно бути ідеальним, щоб мати можливість, ви просто повинні бути кращими, ніж машина здогаду. Насправді, якщо кількість класифікацій занадто мала, навіть людина, яка завжди правильно ідентифікує кока-коли, не зможе показати, що він / він краще, ніж машина здогадки. Наприклад, якщо є лише одна чашка для класифікації, навіть машина для здогадки матиме 50-відсотковий шанс класифікувати її повністю правильно. Це не добре, бо це означає, що в 50 відсотках випробувань ми помилково зробимо висновок, що хороший ідентифікатор кока-кола не є кращим, ніж машина здогаду. Дуже несправедливо.

Чим більше чашок для класифікації, тим більше можливостей виявити нездатність машини здогадуватися і тим більше можливостей проявити хороший ідентифікатор кока-кола.

10 чашок може бути хорошим місцем для початку. Скільки правильних відповідей повинен мати людина, щоб показати, що він чи вона краща за машину?

Запитайте у них, що б вони здогадалися.

Потім дозвольте їм користуватися машиною і дізнатися, наскільки це добре, тобто нехай усі учні генерують серію з десяти здогадок, наприклад. за допомогою кістки або випадкового генератора на смартфоні. Щоб бути педагогічною, вам слід підготувати серію з десяти правильних відповідей, проти яких можна здогадатися.

Запишіть усі результати на дошці. Роздрукуйте відсортовані результати на дошці. Поясніть, що людина повинна бути кращою за 95 відсотків цих результатів, перш ніж статистик визнає свою здатність розповідати різницю між кока-колою та пепсі. Накресліть лінію, яка відокремлює найгірші результати на 95% від перших 5% результатів.

Потім нехай кілька учнів спробують класифікувати 10 чашок. На сьогодні учні повинні знати, скільки потрібно мати прав, щоб довести, що вони можуть сказати різницю.

Все це не дуже можливо за 10 хвилин.


2
Спасибі Ганс Мені подобається ваша відповідь з кількох причин. 1) Тому що ви приносите нову ідею до столу, "щоб діти конкурували з машиною для здогадки". Я визнаю, думка перехрестила мою думку, але ваша відповідь зміцнює мою думку, що це може працювати краще, ніж змусити їх конкурувати з теоретичним розподілом нульової гіпотези p = .5. 2) Тому що ви розумієте, що не все, що ви пропонуєте, було можливо виконати за 10 хвилин :)
Тал Галілі

2
Дякую Талю. а) Я думаю, що машина здогадів набагато інтуїтивніша, ніж теоретичний розподіл. б) Я сподіваюся, що ви можете витратити більше 10 хвилин на тестування гіпотез.
Ганс Екбранд

Чому 95%, га-ха?
Марк Л. Стоун

2

Робота з содою звучить весело, і тест на те, чи можуть підлітки насправді визначити різницю між газованими газами, має сенс, як тільки ви маєте розумні знання про тестування гіпотез. Проблема може полягати в тому, що це питання: "чи можете ви насправді сказати різницю між содами?" ускладнюється безліччю інших речей у свідомості підлітків, наприклад, "хто хороший, а хто поганий у тестуванні газованих напоїв?", "чи є насправді різниця між газованими напоями?"

Я ніколи не навчав статистику підлітків, але завжди фантазував про використання завантаженої матриці чи упередженої монети. Вмирати цікавіше, але статистично складніше. На прикладі монети монета є або не є справедливою. Немає доброго гортання монет. Немає рішення, чи це голови, чи хвости.

Якщо ми перекинемо монету за те, хто виграє 100 доларів, і вона підіймає голови (ви виграєте!), Я можу сказати: "Гей. Як я можу знати, чи справедлива ця монета? Ви кажете "О так? Доведіть". Досить очевидним рішенням є перевернути монету знову і знову, щоб побачити, чи не підходить вона більше головок, ніж хвостів. Ми перевертаємо його, і воно піднімає голови. "Аха! Я кажу. Бачу! Це упереджено по відношенню до голів!" І так далі.

Хороших упереджених монет не існує, але упереджені кістки - ви можете придбати її на Amazon. Ви можете запропонувати студентам приз, якщо вони зможуть виграти певну кількість булочок. Але ти знаєш, що переможеш. Вони будуть розлючені. Ви кажете: Гаразд, я дам вам приз, якщо ви зможете довести, що ця смерть є упередженою, скажімо, 95% впевненості.

Потім переходимо до соди. Призом може бути навіть содова вечірка! "Гей, мені цікаво, чи можете ви, хлопці, сказати різницю між коксом та пепсі ..."


6
" Немає доброго гортання монет ". - спостерігаючи, як Персі Діаконіс розвертає голови за бажанням, я думаю, що це може бути.
Glen_b -Встановіть Моніку

га. тепер я збираюся йти спробувати вийти в цьому добре!
tim.farkas

1
Діаконіс - статистик і фокусник. На YouTube є його відео, які демонструють це (перевертаючи голови, коли він хоче) на YouTube.
Glen_b -Встановіть Моніку

Привіт Тім. Ви приносите приємні бали, але вони не стосуються мого питання безпосередньо. Зважаючи на те, що ваші студенти отримали х з 10 тестів правильно (тест - це вибір правильної марки на основі смаку) - як ви можете пояснити, чому ви приймаєте це рішення?
Тал Галілі

Знову можна використовувати гортання монети. Якщо вони роблять єдиний смак і підходять правильно, це не дуже переконливо, адже якщо ви перевернете монету, вона повинна бути "правильною" 50% часу! якщо ви зрозумієте це правильно двічі, ймовірність отримати це випадково така сама, як перевернути дві голови = .5 * .5 = .25. 3 рази поспіль є .125, 4 - .0625, 5 - .0313. Ви повинні вибрати рівень довіри, який хочете. 50% впевнений? як приблизно 25%? Р. Фішер каже, що 95% впевнені, що це досить добре, і саме цим користуються багато вчених. Це технічно називається тестовим знаком. Дивіться нижче.
tim.farkas

2

Подумайте, що хтось робить цільову практику із рушниці, яка стріляє спалахами гранул у напрямку ствола.

Нульова гіпотеза: Я хороший стрілець, і моя бочка ідеально в ціль. Не ліворуч, не праворуч, а прямо. Моя помилка 0.

Альтернативна гіпотеза: Я поганий стрілець, і моя бочка поза межею. Просто ліворуч або праворуч від цілі. Моя помилка e> 0 або e <0.

Оскільки будь-яке вимірювання має певну середню помилку (тобто стандартну помилку), можливе вимірювання, яке говорить "поза ціллю", навіть якщо я стріляю прямо. Мені потрібно не «вдарити» по моїй цілі (взагалі, навіть якщо кожен постріл був лопнув / розкинувся) певну кількість разів, перш ніж ви зможете назвати мене поганим стрільцем і вибрати альтернативну гіпотезу.


1
Ласкаво просимо в CV. Чи можете ви пояснити свої пояснення нульовими та альтернативними? Можливо, якась додаткова дискусія може допомогти мотивувати їх. Також є деякі нулі та альтернативи, до яких це пояснення не підходить, можливо, вам потрібно буде вказати, для яких типів гіпотез це було б підходящим поясненням (наприклад, точка-нуль,
двоступінчастий

1

Припустимо, діти не можуть визначити різницю і вирішити випадково. Тоді кожна дитина має 50% шансів відгадати це правильно. Тож ви очікуєте (очікувана цінність), що в цьому випадку 5 дітей роблять це правильно, а 5 дітей помиляються. Звичайно, як випадково, також можливо, що 6 дітей помиляються і 4 отримують правильно, і так далі. З протилежного боку, навіть якщо діти можуть сказати різницю, можливо, випадково хтось із них помилиться.

Інтуїтивно зрозуміло, що якщо діти вгадають випадково, то досить неможливо всі діти дати правильну відповідь. У цьому випадку можна скоріше вірити, що діти насправді могли б скуштувати різницю між обома напоями. Іншими словами, ми не очікуємо, що неймовірні події будуть спостерігатися. Тож якщо ми спостерігали подію, яка не піддається сканарію 50-50, ми вважаємо, що цей сценарій неправдивий, і діти можуть розрізняти Кока від Пепсі.

αα0,00098αα=0,05

П(всі діти гадають, що це правильно)=0,00098П(тільки одна дитина плутає Кокса з Пепсі)=0,01074П(тільки двоє дітей плутають)=0.05468

Це момент, коли ви проводите експеримент. Робіть це ретельно з усіма 10 учнями, навіть якщо ви просто порахували, що можете зупинитися після другої помилки. Потім записуйте результати і зберігайте їх. Результати вам знадобляться, якщо ви хочете пояснити їм метааналіз.

(До речі, історичний приклад стосується дегустації, якщо молоко чи чай вилили спочатку в чашку. Пані, де пробували чай.)



0

Експеримент з дегустацією коксу є гарним прикладом для впровадження тестування гіпотез, як показав його еквівалент експерименту з чайним чаєм. Однак оцінка цих експериментів не є дуже інтуїтивно зрозумілою, оскільки нульова гіпотеза передбачає розподіл біномів з р = 0,5, і це не є простою.

У своєму звичайному вступі до тестування гіпотез я намагаюся подолати цей недолік, використовуючи лише випадок усіх успіхів у розподілі біномів, імовірність якого можна обчислити як p ^ n навіть людям, які не знають про біноміальну ймовірність.

У своєму улюбленому прикладі мені подобаються смажені каштани, і я купую жменю їх у вуличного продавця. Я отримую їх за зниженою ціною, тому що вони приходять з великого мішка, де 10% каштанів мають глистові отвори - тут я намагаюся зрозуміти, що мішок добре перемішаний, щоб моя жменька каштанів була випадковою вибіркою каштанів в мішку і заява продавця означає, що кожен каштан має незалежну ймовірність 10% наявності глистової ями.

Коли я починаю насолоджуватися моїми смаженими каштанами, я беру їх по черзі і перевіряю їх на отвори глистів, перш ніж їсти.

Коли я перевіряю перший каштан, я бачу дірку від черв'яка, і мені цікаво, чи брехав мені продавець - я пояснюю тут, що цікаво, що це встановлення моєї нульової гіпотези p = 10% і моя альтернативна гіпотеза p> 10%, і я ставлю їх на дошці. Чи є у мене підстави сумніватися в тому, що р = 10%, коли з одного поганого каштана вийшов один? Що ж, 10% людей, які виконують один і той же експеримент, отримали б той самий результат, тож я можу подумати, що мені просто пощастило.

Потім я беру другий каштан і в ньому також є глистоподібна дірка. Два з двох мають ймовірність всього 1%, якщо продавець не збрехав мені. Я міг би мати дуже невдачу, але мені дуже подобається постачальник.

У третьому каштані теж є глистоподібна дірка. Витягнути три каштани з глистами з трьох не було б неможливо, якщо припустити, що постачальник справедливий і p = 10%, але це було б малоймовірно (вірогідність = 0,1%). Тому зараз у мене є вагомі підстави сумніватися у роботі продавця, і я подаю скаргу і прошу повернути гроші.

Звичайно, у цього виду послідовних тестів є деякі теоретичні проблеми, але це не має великого значення, щоб показати ідею тестів на гіпотезу. Насправді, найважливіша ідея, яка не висвітлена в цьому прикладі, полягає в тому, що в тестах гіпотез ми обчислюємо ймовірність отриманих результатів або чогось гіршого - у моєму прикладі цього вдалося уникнути, отримавши найгірший можливий результат.

Я кілька разів використовував цей приклад із першокурсниками в університеті - які ще є підлітками в технічному плані - але я думаю, що це може добре працювати і з молодшими підлітками.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.