Курс експериментального проектування для шахтарів даних


11

Я вчений-інформатик, що працює в галузі видобутку даних. Не секрет сказати, що комп'ютерні фахівці доволі погано займаються систематичною експериментальною розробкою та оцінкою - використання p-значень і оцінок достовірності вважається просунутим :).

Що я хотів би знати, чи є хороші курси / матеріал, щоб навчити комп'ютерних спеціалістів про хороший експериментальний дизайн. Щоб зробити це більш конкретним, я додам наступну інформацію:

  • Курс повинен бути орієнтований на аспірантів, які можуть вважати розумним розуміння вірогідності, але обмеженим досвідом у статистиці.
  • Курс повинен зосередитись на експериментальному дизайні в "неконтрольованих неприродних умовах": іншими словами, немає ні основної істинної фізичної основи, ні способу контролювати процес збору даних (як це стосується людей). Звичайно, хороший курс буде орієнтований на основи, але він повинен вирішити цей сценарій значним чином.
  • Обчислювальний елемент був би бонусом, але не є обов'язковим. Ми маємо справу з великою кількістю даних, але можемо самостійно вирішувати обчислювальні проблеми.

1
Усі умови експерименту, який ви описуєте, нагадують мені про тестування A / B ... збіг? :)
steffen

Відповіді:


5

[Ной Сміт] [1] та [Девід Сміт] [2] запропонували курс десь тому в JHU зі схожими мотиваціями.

Контур:

  • Лекція 1: вступ, огляд статистики, тестування гіпотез, вибірка
  • Лекція 2: статистика, що цікавить: засоби, кванти, дисперсія
  • Лекції 3–4: експерименти із часом виконання та «простором»
  • Лекція 5: Дослідницький аналіз даних
  • Лекція 6: параметричне моделювання, регресія та класифікація
  • Лекція 7: налагодження статистики та профілювання
  • Лекція 8: підсумок та огляд

Детальніше див. Емпіричні методи дослідження з інформатики (600.408) http://www.cs.jhu.edu/~nasmith/erm/


4

Я міг би запропонувати вам дві книги замість курсів

Перший - як додаток до біоінформатики, а другий - для будь-якої дисципліни


1
Також перевірте цю публікацію stats.stackexchange.com/questions/1815/…
friveroll

3

Гарне питання. Мені дуже хочеться побачити відповіді.

З точки зору статистики необхідно вирішити два питання: більшість статистичних та статистичних конструкцій обговорюють невеликі вибіркові статистичні дані, а більшість методологій, які використовуються інженерами, не є "сучасними" статистичними даними.

У мене немає негайних пропозицій щодо першої проблеми, що виходить за межі хорошого навчання в галузі видобутку / розвідки даних та значення статистично різних, коли стикаюся з аналізом популяційної (або великої вибіркової) статистики.

Однак дві книги, цікаві для ознайомлення студентів із статистикою, будуть від Ренда Вілкокса (психолога):

Wilcox, RR (2012). Вступ до надійної оцінки та тестування гіпотез, 3-е видання. Академічна преса.

Wilcox, RR (2010). Основи сучасних статистичних методів: істотне вдосконалення сили та точності, Спрингер, 2-е видання.


2
Мені здається, що перший випуск - це дослідження, і, можливо, ще немає «найкращих практик». Цілком може статися, що ґрунтовне введення до базового тестування та буріння в проблемі множинних гіпотез може бути найкращим місцем для початку.
Суреш Венкатасубраманян
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.