Які хороші приклади показати студентам магістратури?


9

Я буду викладати статистику як асистент викладання в другій половині цього семестру студентам, орієнтованим на CS. Більшість учнів, які взяли клас, не стимулюють вивчати предмет, а сприйняли його лише для основних вимог. Я хочу зробити тему цікавою та корисною, а не просто клас, який вони навчаються, щоб отримати B +, щоб пройти.

Як аспірант з чистої математики я мало що знав із прикладної реального життя. Я хочу попросити декілька реальних програм статистики студентів. Я шукаю приклади (за духом), такі як:

1) Показати теорему про центральну межу корисно для певних великих вибіркових даних.

2) Наведіть зустрічний приклад того, що теорема про центральну межу не застосовується (скажімо, ті, що слідують за розподілом Коші).

3) Показати, як працює тестування гіпотез на відомих прикладах реального життя, використовуючи Z-тест, t-тест чи щось подібне.

4) Показати, як перевиконання або неправильна початкова гіпотеза можуть дати неправильні результати.

5) Показати, як працював інтервал p-значення та довіри у (добре відомих) випадках реального життя та де вони не так добре працюють.

6) Аналогічно помилки типу I, типу II, статистична потужність, рівень відхилення тощоα

Моя проблема полягає в тому, що, хоча у мене є багато прикладів з боку ймовірності (кидання монети, кидання костей, руїна азартних гравців, мартингали, випадкова прогулянка, парадокс трьох в'язнів, проблема монті Холла, методи ймовірності в розробці алгоритмів тощо), я не знаю, як багато канонічних прикладів зі сторони статистики. Я маю на увазі серйозні, цікаві приклади, які мають певну педагогічну цінність, і це не дуже штучно складене, що здається дуже відірваним від реального життя. Я не хочу створювати студентам помилкове враження, що Z-тест і t-тест - це все. Але через мій чистий математичний фон я не знаю достатньо прикладів, щоб зробити клас цікавим і корисним для них. Тому я шукаю допомоги.

Рівень мого студента - це навколо числення I та другого числення. Вони навіть не можуть показати дисперсію стандартного нормалу 1 за визначенням, оскільки вони не знають, як оцінити ядро ​​Гаусса. Тож нічого злегка теоретичного чи практичного обчислення (наприклад, гіпергеометричний розподіл, закон арцина в 1D випадковому ході) не буде працювати. Хочу показати кілька прикладів того, що вони можуть зрозуміти не лише "як", а й "чому". Інакше я не впевнений, чи докажу, що я сказав залякуванням.


2
Зважаючи на це, це здається трохи широким і не дуже сфокусованим, "деякі додатки статистики бакалаврів у реальному житті" не особливо підходять для формату якості. У кращому випадку це питання "великого списку". Якщо (3) сам по собі може бути занадто широким і не зосередженим, але може бути ходункою з невеликим перефразовуванням, і (4) може стояти на самоті досить добре з трохи більше уваги. (1) не може досягти успіху ні в якому разі, оскільки теорема про центральну межу насправді нічого не говорить про те, що відбувається при або або . Це не кінцевий зразок результату. н=100н=1000н=1010
Glen_b -Встановіть Моніку

3
Теорема Беррі-Ессена (яку, я думаю, ви не навчите на цьому рівні), може бути використана з кінцевими зразками. Неофіційно, звичайно, вибіркові засоби певних розподілів стають все більш нормальними, оскільки розміри вибірки збільшуються, але ми не можемо сказати, що "це центральна межа теореми", оскільки CLT насправді нічого про це не говорить. Крім того, щоб показати речі, які стабільно наближаються до нормального розподілу, потрібна послідовність розмірів вибірки. У реальному світі збір даних, який часто зустрічається лише в даних, зібраних з часом (тому якщо ви припускаєте, що iid, у вас можуть виникнути певні труднощі).
Glen_b -Встановіть Моніку

2
Тут є реальні дані (з експерименту - якщо дещо штучний) - 40000
викидів

1
Ви можете показати їм щось про те, як засоби вибірки поводяться в конкретних ситуаціях із збільшенням розміру вибірки - це цілком корисно; просто не дуже точно віднести це до CLT. Дані про викидання монет можуть бути корисними для цього (як і дані, які вони генерують самі подібним чином). Ви можете прочитати інформацію за посиланням, перш ніж отримувати дані, оскільки є важливою особливістю даних (яка в першу чергу також є мотивацією їх збирання).
Glen_b -Встановіть Моніку

1
Приклади майже всіх речей, які ви перераховуєте, наведені в хороших текстах вступної статистики, таких як Freedman, Pisani та Purves . (Я пов’язаний з Третім виданням, яке ви можете легко знайти за ціною менше 10 доларів США. Будь-яке видання буде добре; в останньому виданні можуть бути більш сучасні приклади.)
whuber

Відповіді:


1

Хорошим способом може бути встановлення R ( http://www.r-project.org/ ) та використання його прикладів для викладання. Ви можете отримати доступ до довідки в R за допомогою команд "? T.test" тощо. В кінці кожного довідкового файлу є приклади. Наприклад, для t.test:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

введіть тут опис зображення


1

Я пропоную застосувати центральну граничну теорему для попереднього визначення розміру вибірки та пошуку відповіді на запитання на кшталт "чи надсилав я достатньо анкети" тощо.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf є прекрасним прикладом реального світу того, як застосувати теорему про центральну межу. Дидактичною стратегією можуть бути:

А) теорія

* уточнити різницю між розподілом вибірки та розподілом оцінки, наприклад, "плоским" розподілом прокатки штампу проти розподілу середнього числа N кубиків (використовуйте R або дозвольте учням навіть гратись самим малюнком в Excel -цінні розподіли проти розподілу засобів)

* покажіть обчислення на основі формули відсотків для розподілу середнього значення (оскільки ви заглиблюєтесь у математику, ви можете отримати формулу) - ця точка відповідає слайдам 10-17 у представленій таблиці, пов'язаній вище

а потім (як на слайді 20 зі зв'язаної презентації):

Б) застосування

* покажіть, як центральна гранична теорема допомагає визначити розміри вибірки для бажаних точних в оцінках середнього

Ця програма B) - це те, що, на моєму досвіді, нестатистичні лікарі очікують від статистиків - відповіді на запитання типу "чи маю я достатньо даних?"


1

Оскільки ви викладаєте студентів з КС, приємним застосуванням теореми про центральний ліміт може бути оцінка середньої масивної масиви даних (тобто> 100 мільйонів записів). Це може бути повчально показати, що не потрібно обчислювати середнє значення для всього набору даних, а натомість робити вибірку з набору даних та використовувати середнє значення вибірки для оцінки середнього для всього набору даних / бази даних. Ви можете зробити це на крок далі, якщо хочете і змоделювати набір даних, який має різно різні значення для різних підгруп. Потім ви можете змусити учнів вивчити стратифіковану вибірку для отримання більш точних оцінок.

Знову ж таки, оскільки є студенти CS, можливо, ви захочете зробити кілька завантажувальних програм для отримання інтервалів довіри або для оцінки відхилень більш складної статистики. Це хороший перетин статистики та комп’ютера, оскільки, на мою думку, це може призвести до більшого зацікавлення предметом.


1

Я почав із введення коментаря, але він став занадто тривалим ...

Майте на увазі, що вони є студентом CS. Ви не порадуєте їх так, як вам подобаються математики (з алгебрами ) або біологи, лікарі (з біологічними або медичними даними та класичними рецептами для перевірки старих нульових гіпотез). Якщо у вас є достатня свобода для вирішення спрямованості лекції, якщо справа в тому, що вони вивчають основні поняття, моя порада - зробити кардинальну зміну орієнтації. Звичайно, якщо інші вчителі хочуть, щоб вони могли виконати деякі заздалегідь задані завдання, ви трохи застрягли.σ

Тож, на мою думку, їм сподобається, якщо ви представите висновки з точки зору "навчання", а якщо ви представите тести з точки зору "теорії рішення" або "класифікації" - коротше, вони повинні любити алгоритми. До алгоритмів grok!

Також спробуйте знайти набори даних, що стосуються CS; наприклад, тривалість з'єднань та кількість запитів за одиницю часу до html-сервера можуть допомогти проілюструвати багато понять.

Вони люблять вивчати методи моделювання. Генератори Lehmer прості у використанні. Покажіть їм, як імітувати інші дистрибутиви, перевернувши cdf. Якщо ви займаєтесь цим, покажіть їм алгоритм Ziggurat Marsaglia. О, і генератор MWC256 від Marsaglia - це маленький дорогоцінний камінь. Тести Діярда Марсагліа (тести на справність уніфікованих генераторів) можуть допомогти проілюструвати багато понять вірогідності та статистики. Можна навіть вибрати теорію ймовірностей, засновану на "(незалежних) потоках випадкових пар, дуп, я маю на увазі реальні" - це трохи сміливо, але це може бути грандіозно.

Також пам’ятайте, що рейтинг сторінки базується на ланцюжку Маркова. Це справа непроста, але після презентації Артура Енгеля (я думаю, що посилання є ймовірним абаком - якщо ви читаєте французьку, цю книгу абсолютно обов’язково читати ), ви можете легко представити кілька прикладів іграшок, які їм сподобаються. . Я думаю, що студенту науки CS сподобається дискретні ланцюги Маркова набагато більше, ніж -тести, навіть якщо матеріал здається більш складним (презентація Енгеля робить це дуже просто).т

Якщо ви досить добре освоїте предмет, не соромтеся бути оригінальним. "Класичні" лекції нормально, коли ви навчаєте щось, з чим ви не до кінця знайомі. Удачі, і якщо ви випустите кілька конспектів лекцій, будь ласка, повідомте мене!


1

Ви кажете, це студенти з інформатики. Які їх інтереси, це в основному теоретичні інформатики чи студенти в основному мотивовані підготовкою до роботи? Ви також можете сказати нам, що таке опис курсу!

Але, незалежно від вашої відповіді на ці запитання, ви можете почати з певної практичної статистики, що виникає в контексті інформатики, наприклад (наприклад, веб-дизайн). Час від часу на цьому веб-сайті виникають питання, такі як коефіцієнт конверсії з часом або /stats/96853/comparing-sales-person-conversion-rates або AB Тестування інших факторів, крім коефіцієнта конверсії .

Тут є багато питань, таких як ці, схоже, від людей, які займаються веб-дизайном. Ситуація така, що у вас є якась веб-сторінка (скажімо, ви щось продаєте). "Я, наскільки я розумію," коефіцієнт конверсії - це відсоток відвідувачів, які переходять до якоїсь бажаної задачі (наприклад, купівлі чи іншої мети, яку ви маєте для своїх відвідувачів). Тоді ви, як веб-дизайнер, запитуєте, чи впливає ваш макет сторінки на таку поведінку. Таким чином, ви програмуєте дві (або більше) версії веб-сторінки, вибираєте випадковим чином, яку версію представити новому замовнику, і таким чином можете порівняти коефіцієнти конверсії, і, нарешті, вирішите застосувати версію з найвищим коефіцієнтом конверсії.

Це проблема розробки експерименту порівняння, і вам потрібні статистичні методи для порівняння відсотків, або, можливо, безпосередньо таблиця надзвичайних ситуацій конструкцій проти конвертувати / не перетворювати. Цей приклад може показати їм, що статистика може бути корисною для них у певній роботі з веб-розробки! А зі статистичної сторони це відкриває для багатьох цікавих питань щодо обгрунтованості припущень ...

Для підключення до того, що ви говорите про центральну граничну теорему, ви можете запитати, скільки спостережень вам потрібно, щоб ви могли розглянути відсотки як нормально розподілені, і змусити їх вивчити це за допомогою моделювання ...

Ви можете шукати на цьому веб-сайті інші питання статистики, задані типами програмістів ...


-2

Я пропоную, перед будь-якими добрими прикладами, краще зосередитись на чітких визначеннях. З мого досвіду, ймовірність та статистика для студентів - це курс, наповнений словами, які ніхто з студентів не розуміє. В якості експерименту запитайте студентів, які щойно закінчили курс імовірності, що таке "випадкова величина". Вони можуть навести вам приклади, але я сумніваюся, що більшість дасть вам чітке визначення цього. Що саме таке "ймовірність"? Що таке "розподіл"? Термінологія в статистиці ще більше заплутує. Більшість магістерських книг, які я бачив, роблять дуже погану роботу, пояснюючи це. Приклади та обчислення приємні, але без чітких визначень це не так корисно, як можна було б подумати. Якщо говорити зі свого досвіду, саме тому я ненавидів теорію ймовірностей як бакалавра. Навіть незважаючи на те, що мої інтереси настільки віддалені від імовірності, яку я зараз маю, я зараз ціную цю тему, бо врешті-решт я навчив себе, що насправді означає вся термінологія. Прошу вибачення, що це не зовсім те, про що ви запитували, але враховуючи, що ви викладаєте такий клас, я подумав, що це буде корисна порада.


1
Я не впевнений, що згоден - принаймні, не в більшості / всіх випадках. Для деяких, концептуальне розуміння може, як ви пропонуєте, передувати застосуванню до конкретних прикладів, але для інших студентів концептуальне розуміння (особливо для складних тем) може виникнути лише за допомогою особливо яскравого прикладу.
jsakaluk

Коли я був студентом, я, як правило, не дуже важко читав аспірантуру і вирішував там проблеми. Я знав, що роблю і що маю робити. Теорія ймовірностей, або статистика, "простіша", ніж предмети, які я вивчав. Але я поняття не мав, що я роблю або чому мені це робити. Самі підручники були для мене абсолютно недобрими. Прочитавши їх, я не дуже зрозумів лексику. Звичайно, я можу робити обчислення, але наприкінці дня я просто побачив це як порожній предмет. Якби я мав цю плутанину, al fortiorti, теж не схильні учні, що не мають математики.
Ніколя Бурбакі

5
Цікаво, чи це може бути кориснішою порадою для викладання, мабуть, дуже яскравих учнів на чистому рівні математики, ніж для навчання прикладної статистики для спеціальностей CS.
Срібна рибка

@Silverfish Я не впевнений, чи моя порада стосується лише студентів математики. Можна розробити мову теорії мір і показати, як в ній виражається ймовірність, не вдаючись до теорії. Це насправді нічим не відрізняється від основного числення. Більшість книг принаймні визначають їх терміни, але вони не вникають у їх теорію. Якщо студенти зрозуміли, що статистика - це зворотна проблема ймовірності, і що, наприклад, нас хвилює середнє значення, оскільки воно наближає до очікуваного значення випадкової величини, то вони можуть оцінити її набагато більше.
Ніколя Бурбакі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.