Стратегії навчання розподілу вибірки


30

Версія tl; dr. Які успішні стратегії ви використовуєте, щоб навчити розподілу вибірки (наприклад, вибірки) на вступному рівні студентів?

Фон

У вересні я буду викладати вступну статистику курсу для другого року суспільствознавства ( в основному політологія і соціології) студентів з використанням Основному практики статистики Девіда Муром. Я буду в п'ятий раз викладати цей курс, і одне питання, яке я постійно мав, - це те, що студенти справді боролися з поняттям розподілу вибірки . Він висвітлюється як фон для висновку і випливає з основного вступу до ймовірності, з якою вони, здається, не мають проблем після деяких початкових гикавок (а під базовим, я маю на увазі базовий- зрештою, багато з цих студентів були самостійно відібрані у конкретний потік курсу, оскільки вони намагалися уникнути чогось, навіть із невиразним натяком на "математику"). Я б припустив, що, ймовірно, 60% залишають курс без мінімального розуміння, приблизно 25% розуміють принцип, але не зв'язки з іншими концепціями, а решта 15% повністю розуміють.

Основне питання

Здається, студенти мають проблеми з додатком. Важко пояснити, що є точним питанням, окрім як сказати, що вони просто цього не розуміють. У опитуванні, яке я проводив у минулому семестрі, та у відповідях на іспити, я вважаю, що частина труднощів полягає в плутанні двох споріднених та подібних звукових фраз (розподіл вибірки та розподіл вибірки), тому я не використовую фразу "вибірковий розподіл" більше, але, безумовно, це те, що, спочатку заплутавшись, легко сприймається з невеликими зусиллями і все одно не може пояснити загальну плутанину концепції розподілу вибірки.

(Я розумію, що це може бути я і моє вчення, про яке тут йдеться! Однак я вважаю, що ігнорувати цю незручну можливість доцільно, оскільки деякі студенти, здається, це отримують, і загалом всі, здається, роблять досить добре ...)

Що я спробував

Мені довелося посперечатися з адміністратором бакалаврату нашого відділу, щоб запровадити обов'язкові заняття в комп'ютерній лабораторії, думаючи, що повторні демонстрації можуть бути корисними (до того, як я почав викладати цей курс, в роботі з комп’ютерами не брали участь). Хоча я думаю, що це допомагає в цілому зрозуміти матеріал курсу загалом, я не думаю, що це допомогло в цій конкретній темі.

Однією з моїх ідей є просто не навчати цього взагалі чи не надавати йому великої ваги - позиція, яку висувають деякі (наприклад, Ендрю Гельман ). Я не вважаю це особливо задовольняючим, оскільки воно має прихильність викладання найменшого загального знаменника і, що ще важливіше, заперечує сильних та мотивованих студентів, які хочуть дізнатися більше про статистичне застосування, по-справжньому розуміючи, наскільки важливі поняття працюють (не лише розподіл вибірки! ). З іншого боку, середній студент, схоже, розуміє р-значення, наприклад, тому, можливо, їм не потрібно розуміти розподіл вибірки.

Питання

Які стратегії ви використовуєте для навчання розподілу вибірки? Я знаю, що є матеріали та дискусії (наприклад, тут і тут, і цей документ, який відкриває PDF-файл ), але мені просто цікаво, чи можу я отримати конкретні приклади того, що працює для людей (або я думаю, навіть те, що не працює тож я буду знати, що не пробувати!). Мій план зараз, коли я планую свій курс на вересень, полягає в тому, щоб дотримуватися порад Гельмана і «деэффазировать» розподіл вибірки. Я викладаю це, але запевняю студентів, що це якась тема, що стосується лише FYI, і вона не з’явиться на іспиті (хіба що, можливо, як питання про бонус ?!). Однак мені дуже цікаво почути інші підходи, якими користуються люди.


Ви також можете зробити це за допомогою ненормальних розподілів населення, щоб показати центральну граничну теорему
user41270

вибачте, це повинно було прокоментувати мою відповідь нижче.
user41270

Відповіді:


23

На мою думку, вибіркові розподіли є ключовою ідеєю статистики 101. Ви можете також пропустити курс, пропустивши це питання. Однак я дуже добре знайомий з тим, що студенти просто не отримують цього, здається, незалежно від того, чим займаєтесь. У мене є низка стратегій. Це може зайняти багато часу, але я рекомендую пропустити / скоротити інші теми, щоб забезпечити уявлення про розподіл вибірки. Ось кілька порад:

  • Скажіть це виразно: Я спершу прямо зазначу, що існує 3 різних розподіли, якими ми маємо справу: розподіл населення, вибірковий розподіл та розподіл вибірки. Я говорю це знову і знову протягом уроку, а потім знову і знову протягом курсу. Кожен раз , коли я говорю ці терміни я підкреслюю відмітна закінчення: зразки на PLE , samp- лин . (Так, студенти від цього хворіють; вони також отримують цю концепцію.)
  • Використовуйте малюнки (фігури): у мене є набір стандартних фігур, які я використовую кожен раз, коли я про це говорю. Він має три розподіли, зображені виразно і типово марковані. (Мітки з цією цифрою знаходяться на слайді Powerpoint і містять короткі описи, тому вони тут не відображаються, але очевидно, що це: кількість населення вгорі, потім вибірки, а потім розподіл вибірки.)
    введіть тут опис зображення
  • Дайте учням заняття: Перший раз, коли ви введете цю концепцію, або принесіть рулон нікелів (деякі чверті можуть зникнути), або купу 6-сторонніх кісток. Запропонуйте учням сформуватись у малі групи та сформувати набір із 10 значень та порівняти їх. Потім ви можете зробити гістограму на дошці або за допомогою Excel.
  • Використовуйте анімації (симуляції): я записую деякий (комічно неефективний) код у R, щоб генерувати дані та відображати їх у дії. Ця частина особливо корисна при переході до пояснення теореми про центральний межа. (Зауважте Sys.sleep(), ці паузи дають мені хвилину, щоб пояснити, що відбувається на кожному етапі.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • Поновлюйте ці поняття протягом семестру: я знову підношую ідею розподілу вибірки щоразу, коли ми говоримо про наступну тему (хоча зазвичай це дуже коротко). Найважливішим місцем для цього є те, коли ви навчаєте ANOVA, оскільки у випадку з нульовою гіпотезою справді виникає ситуація, коли ви кілька разів відбирали вибірку з одного і того ж розподілу населення, а ваш набір групових засобів насправді є емпіричним розподілом вибірки. (Для прикладу цього дивіться мою відповідь тут: Як працює стандартна помилка? )

1
Це гарна відповідь (+1). Я особливо думаю, що діяльність та моделювання дуже корисні для викладання цього предмету. У вступному курсі, який я декілька разів викладав, ми використовували веб-аплет, який дозволив студентам візуалізувати, як обчислюється статистика з вибірки та як гістограма розподілу вибірки починає формуватися, коли ви повторюєте це багато разів. Я думаю, що ця діяльність допомогла набагато більше, ніж будь-що, що я коли-небудь говорив студентам, коли було зрозуміти вибіркові розподіли :)
Макрос

+1 Дякую Гунг, це чудова відповідь! Дякую за «прислану codez» теж (користувачі нб. Mac замінити windows(...)з quartz(...)). Ваша думка щодо зміцнення концепції протягом семестру особливо корисна. Я думаю, що слідування цим рекомендаціям буде справді корисним.
smillig

(+1) для мантри "3-х розподілів" та для реляційної картини. Ніхто не може зрозуміти поняття без попереднього розуміння того, що це, дійсно, окреме поняття.
Алекос Пападопулос

Я знайшов сторінку "університету онлайн-статистики " в університеті Райс дуже корисною для цього. У початковій версії, багато років, був аплет Java, але я радий, що нещодавно вони переробили його в Javascript. Спосіб його роботи по суті ідентичний вашій схемі.
Срібна рибка

8

Мені пощастило нагадати студентам, що розподіл вибірки - це розподіл тестової статистики на основі випадкової вибірки . У мене студенти замислюються над тим, що би сталося в самому процесі вибірки, було упереджено - зосереджувалося на крайніх випадках. Наприклад, як виглядало б "розподіл вибірки", якби наш процес вибірки завжди вибирав однаковий (спеціальний) підмножина. Тоді я б розглядав, як виглядатиме "розподіл вибірки", якби наш процес вибірки обрав лише дві конкретні (спеціальні) підмножини (кожна з вірогідністю 1/2). Це досить просто для розробки з середньою вибіркою (особливо для конкретного вибору "спеціального" для базового населення).

Я думаю, що для деяких (явно не для всіх) студентів це, мабуть, допомагає їм думати, що розподіл вибірки може сильно відрізнятися від розподілу населення. Я також використав приклад центральної граничної теореми, який Майкл Черник з певним успіхом згадував - особливо з дистрибутивами, які явно не є нормальними (моделювання справді допомагають).


Грем Куксон має гарне заняття в класі, яке розміщено як відповідь у "Що пояснює ваш улюблений мирянин важкому статистичному поняттю?" - вікі спільноти.
shoda

+1, говорити про те, яким буде розподіл вибірки невипадкових вибірок, є хорошою ідеєю.
gung - Відновіть Моніку

+1 Відмінна ідея про вибір підмножини! Я думаю, що це посилання, яке ви посилаєтесь на @shoda: stats.stackexchange.com/a/554/9249
smillig

7

Починаю ще з викладання ймовірності. Я не вживаю багато формальних визначень і правил (просто не вистачає часу), але показую ймовірність за допомогою моделювання. Проблема Monty Hall - це чудовий приклад для використання, я демонструю через моделювання (а потім подальші дії з логікою), що стратегія переключення дає більш високу ймовірність виграти. Я зазначаю, що за допомогою симуляції нам вдалося грати в гру багато разів (без ризику чи винагороди) для оцінки стратегій, і це дозволяє нам вибирати кращу стратегію (якщо ми колись знаходимось у цій ситуації). Вибір кращої стратегії не гарантує виграш, але це дає нам більше шансів і допомагає вибирати між стратегіями. Тоді я зазначу, що, як це буде стосуватися решти курсу, це те, що це допоможе нам вибрати стратегії, де є випадкова складова,

Потім, коли я впроваджую розподіл вибірки, я знову починаю з моделювання і кажу, що ми хочемо розробляти стратегії. Як і у випадку з проблемою Monty Hall, в реальному житті нам вдасться взяти лише 1 зразок, але ми зможемо змоделювати купу зразків, щоб допомогти нам розробити стратегію. Потім я показую симуляцію багатьох зразків з однієї сукупності (відома популяція в даному випадку) і показую взаємозв'язки, які ми дізнаємося з моделювання (гістограма вибірки означає), тобто засоби вибірки, згруповані навколо справжнього середнього (середнє значення означає середнє) , менше стандартне відхилення розподілу відбору проб для більших проб, більш нормальне для більших зразків. Весь час я говорю про повторення ідей симуляції для вибору стратегій, саме таку ж ідею, як проблема Монті Холл, що застосовується зараз до вибірки засобів замість ігрових шоу. Потім я показую офіційні правила і кажу, що крім моделювання їх можна довести математично, але я не буду наносити докази на весь клас. Я пропоную, що якщо вони дійсно хочуть бачити математичні докази, вони можуть прийти в офісну годину, і я покажу їм математику (ніхто з інтрокласів ще не взяв мене за це).

Тоді, коли ми переходимо до висновку, я кажу, що ми зможемо взяти лише 1 зразок у реальному світі, подібно до того, як ми могли би грати в гру лише 1 раз (максимум), але ми можемо використовувати стратегії, які ми навчилися моделювати багато зразків для розробки стратегії (z-test, t-test або формула CI), яка надасть нам обрані властивості (шанс бути правильним). Як і в грі, ми не знаємо, перш ніж починати, чи буде наш остаточний висновок правильним (а зазвичай ми все ще не знаємо після цього), але ми знаємо з моделювання та розподілу вибірки, яку довгострокову ймовірність використовує та стратегія.

Чи 100% студентів мають ідеальне розуміння? ні, але я думаю, що більшість з них отримує загальне уявлення про те, що ми можемо використовувати імітаційні та математичні правила (що вони раді, що їм не потрібно дивитись, просто довіряйте книзі / інструктору), щоб вибрати стратегію / формулу, яка має бажані властивості.


+1 Дякуємо, що поділилися цією порадою. Я думаю, ви вирішили це з тим, що проблема є зв'язком між тим, що ми можемо навчити, що таке розподіл вибірки порівняно з тим, як це можна екстраполювати на висновок з однієї вибірки. Як ви запропонували (та інші тут), продовжувати повторювати цю концепцію знову і знову протягом курсу важливо, але це не часто (хоча б не мені, мабуть тому, що мені вже досить важко вписатись у все, що я хочу, не кажучи вже про повернення до вже охоплених понять!).
smillig

3

Це дуже важливе і продумане питання з вашого боку. Я думаю, що концепція розподілу вибірки є різною основою для розуміння умовиводу, і її, безумовно, слід навчити.

Я викладав багато курсів вступної статистики, зокрема з біостатистики. Я викладаю концепцію розподілу вибірки і маю підходи, які, на мою думку, хороші, але насправді не мають хороших відгуків, щоб визначити, наскільки я успішний у них. У всякому разі, ось що я роблю.

Спочатку я намагаюся дати просте визначення. Розподіл вибірки - це розподіл, який мали б статистика тесту, якби процес вибірки повторювався багато разів. Від розподілу населення залежать від того, з яких даних приймаються дані.

Хоча я думаю, що це приблизно таке просте визначення, як я можу дати, я розумію, що це не дуже просто і розуміння концепції не прийде одразу в більшості випадків. Тому слідкуйте за цим основним прикладом, який підкріплює те, що сказано у визначенні.

22

Тоді я би прослідкував за цим важливим додатком, центральною граничною теоремою. Найпростіше кажучи, центральна гранична теорема говорить про те, що для багатьох розподілів, які не є нормальними, розподіл вибірки для зразка середнього значення буде близьким до нормального розподілу, коли розмір вибірки n великий. Щоб проілюструвати це, візьміть розподіли на зразок рівномірного (також було б добре поглянути на бімодальний розподіл) та покажіть, як виглядає розподіл вибірки для середнього для розмірів вибірки 3, 4, 5, 10 та 100. Студент може побачити, як форма розподілу змінюється від чогось, що зовсім не виглядає нормальним для малого n, до чогось, що дуже схоже на нормальний розподіл для великого n.

Щоб переконати студента, що такі розподіли вибірки дійсно мають такі форми, учні мають провести імітацію, генеруючи багато зразків різного розміру, та обчислити вибіркові засоби. Потім змушують їх генерувати гістограми для цих середніх оцінок. Я б також запропонував застосувати фізичну демонстрацію, яка показує, як це працює за допомогою дошки quincunx. Роблячи це, ви вказуєте, як пристрій генерує зразки суми незалежних випробувань Бернуллі, де ймовірність руху вліво або вправо на кожному рівні дорівнює 1/2. Отримані внизу стоси являють собою гістограму для цього розподілу відбору проб (двочлен), і його форма може бути видно приблизно нормальною після того, як велика кількість кульок приземлиться внизу квінкунсу,


Дякуємо за цінні пропозиції. Мені дуже подобається ідея фактичної фізичної демонстрації, і я неодмінно спробую здійснити щось подібне (припускаючи, що я можу досить довго відволікти їх від фейсбуку ...), хоча зв'язок із сумою незалежних випробувань Бернуллі, ймовірно, трохи перевищує їх голови! Спасибі.
smillig

1
Але бачити нормальну форму розподілу в експерименті справді відкрито для очей. Я вперше побачив один із таких, продемонстрований у Музеї науки в Чикаго, коли я був дитиною (приблизно 10 років). Тоді нічого не знав про статистику, але ніколи не забував криву.
Майкл Р. Черник

1

Я думаю, що було б добре покласти «сумку» чисел у мішок (починаючи від 1-10). Ви можете робити власні плитки, використовувати монети, гральні карти тощо.

Запропонуйте студентам сидіти в групах (5 і більше) і кожен вибирає номер із сумки. Потім кожна група обчислює середнє значення для своєї групи. Скажіть їм, що раніше ви відпрацьовували середній показник кількості населення, побудуйте його на гістограмі та змусіть кожного члена кожної групи прийти та побудувати їх вибіркове значення на істограмі навколо цього. Запропонуйте їм зробити цей випадок кілька разів, щоб "наростити гістограму".

Тоді ви зможете графічно показати різницю у вибіркових засобах навколо середнього значення сукупності. Визначте варіацію середніх вибірок порівняно із середньою сукупністю. Я думаю, що студент чітко пам’ятає, що робив таку практичну вправу, і концепція варіації вибірки повернеться до них легше в результаті. Це може здатися трохи по-дитячому, але студентам іноді просто подобається зміна, щоб зробити щось активне .... Існує не так багато можливостей зробити це в статистиці.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.