Як ви можете сказати, чи хороші виступи стають смугами?

10

Я вирішую кубики Рубіка як хобі. Я записую час, який знадобився мені, щоб вирішити куб за допомогою певного програмного забезпечення, і тепер я маю дані з тисяч рішень. Дані - це в основному довгий перелік чисел, що представляють час кожного послідовного рішення (наприклад, 22.11, 20.66, 21.00, 18.74, ...)

Час, який знадобиться мені для вирішення куба, природно дещо відрізняється від рішення до вирішення, тому є хороші та погані рішення.

Хочеться знати, чи «нагріваюсь я» - чи добре вирішуються проблеми. Наприклад, якщо я щойно мав декілька підряд хороших рішень, чи є більш ймовірним, що наступне рішення буде хорошим?

Який аналіз буде доречним? Я можу придумати декілька конкретних речей, наприклад, як трактувати розв'язки як процес Маркова і бачити, наскільки вдале рішення можна передбачити наступне, і порівнюючи з випадковими даними, бачачи, як довго триває найдовша смуга послідовних послідовностей нижче медіани для останнього 100 є і порівнюючи з тим, що можна було б очікувати у випадкових даних і т. Д. Я не впевнений, наскільки проникливими будуть ці тести, і цікаво, чи існують якісь добре розроблені підходи до подібної проблеми.

probability

— Марк Ейхенлауб
джерело

8

Тест на Вальд-Вулфовіца запускається, здається, можливим кандидатом, де "пробіжка" - це те, що ви назвали "смугою". Для цього потрібні дихотомічні дані, тому вам доведеться позначати кожне рішення як "погане" проти "хороше" відповідно до деякого порогу - як середній час, як ви запропонували. Нульова гіпотеза полягає в тому, що "хороший" і "поганий" розв'язуються випадково. Односторонньою альтернативною гіпотезою, що відповідає вашій інтуїції, є те, що "хороший" вирішує згустки разом у довгі смуги, маючи на увазі, що за випадковими даними є менше пробігів, ніж очікувалося. Статистика тесту - це кількість пробіжок. В R:

> N      <- 200                          # number of solves
> DV     <- round(runif(N, 15, 30), 1)   # simulate some uniform data
> thresh <- median(DV)                   # threshold for binary classification

# do the binary classification
> DVfac <- cut(DV, breaks=c(-Inf, thresh, Inf), labels=c("good", "bad"))
> Nj    <- table(DVfac)                  # number of "good" and "bad" solves
> n1    <- Nj[1]                         # number of "good" solves
> n2    <- Nj[2]                         # number of "bad" solves
> (runs <- rle(as.character(DVfac)))     # analysis of runs
Run Length Encoding
lengths: int [1:92] 2 1 2 4 1 4 3 4 2 5 ...
values : chr [1:92] "bad" "good" "bad" "good" "bad" "good" "bad" ...

> (nRuns <- length(runs$lengths))        # test statistic: observed number of runs
[1] 92

# theoretical maximum of runs for given n1, n2
> (rMax <- ifelse(n1 == n2, N, 2*min(n1, n2) + 1))
199

Якщо у вас є лише кілька спостережень, ви можете обчислити точні ймовірності для кожної кількості прогонів під нульовою гіпотезою. В іншому випадку розподіл "кількості прогонів" можна наблизити до стандартного нормального розподілу.

> (muR  <- 1 + ((2*n1*n2) / N))                     # expected value
100.99 

> varR  <- (2*n1*n2*(2*n1*n2 - N)) / (N^2 * (N-1))  # theoretical variance
> rZ    <- (nRuns-muR) / sqrt(varR)                 # z-score
> (pVal <- pnorm(rZ, mean=0, sd=1))                 # one-sided p-value
0.1012055

Значення р - це для однобічної альтернативної гіпотези про те, що "хороші" розв'язки надходять у смуги.

— каракал
джерело

3

Чудова відповідь. Однак я не хочу перетворювати суцільну змінну у бінарну. Було б втрачено багато змістовної мінливості.

— Джеромі Англім

@jeromy - це взагалі хороший момент, але, здавалося б, для цього конкретного питання, binning не викидає багато інформації - тим більше, що "хороший" і "поганий" визначаються лише як дихотомія у питанні, а не як континуум.

— ймовірністьлогічний

@probabilityislogic Я розумію, що @mark може оперувати час рішення як "хороший" або "поганий", залежно від того, на якій стороні якогось порогу знаходиться час рішення. Однак де б не був поріг, він, звичайно, трохи довільний. Якби поріг був 5 хвилин, напевно 5 хвилин і 1 секунда не сильно відрізнялися б від 4 хвилин і 59 секунд у «доброті». Я думаю, що "хороший" і "поганий" - нечіткі категорії стосовно часу безперервного завершення.

— Джеромі Англім

Але будь-яке визначення поняття "хороший" і "поганий" є довільним - через відносну природу цих слів. Незалежно від того, чи дозволяєте ви "даним" вирішувати неоднозначність, чи ви вирішуєте їх самостійно, це не робить його більш-менш неоднозначним. Можливо, таке різке розмежування є виправданим - якщо вам потрібно менше 5 хвилин, щоб отримати право на фінал у змаганнях. Я впевнений, що суддю не будуть керуватись подібними аргументами, "але це було лише 2 секунди поза кваліфікаційним часом"

— ймовірністьлогічний

5

Кілька думок:

Накресліть розподіл разів. Я здогадуюсь, що вони будуть позитивно перекошені, такі, що деякі часи рішення дійсно повільні. У цьому випадку ви можете розглянути журнал чи іншу трансформацію часу рішення.
Створіть графік випробовування розсіяння на осі x та час рішення (або час розв’язання журналу на осі y). Це повинно дати вам інтуїтивне розуміння даних. Це може також виявити інші види тенденцій, окрім "гарячої смуги".
Поміркуйте, чи є ефект навчання з часом. З більшості головоломок ви швидше практикуєтесь. Сюжет повинен допомогти розкрити, чи це так. Такий ефект відрізняється від ефекту "гарячої смуги". Це призведе до кореляції між випробуваннями, оскільки, коли ви вперше навчаєтесь, повільні випробування відбуватимуться спільно з іншими повільними випробуваннями, і коли ви будете більш досвідчені, швидші випробування відбуватимуться разом із швидшими випробуваннями.
Розглянемо ваше концептуальне визначення «гарячих смуг». Наприклад, чи застосовується це лише до судових випробувань, близьких за часом, або стосується близькості порядку. Скажіть, ви швидко вирішили куб у вівторок, а потім зробили перерву, а наступної п’ятниці ви швидко вирішили його. Це гаряча смуга, чи це враховується лише, якщо ви зробите це в той же день?
Чи є інші ефекти, які можуть відрізнятися від ефекту гарячої смуги? Наприклад, час доби, коли ви розгадуєте головоломку (наприклад, втома), ступінь, до якого ви насправді дуже стараєтесь? тощо.
Після того, як альтернативні систематичні ефекти будуть зрозумілі, ви можете розробити модель, яка включає якомога більше їх. Ви можете побудувати залишковий на осі y та пробувати на осі x. Тоді ви могли побачити, чи є автокореляції в залишках моделі. Ця автокореляція забезпечила б певні свідчення про гарячі смуги. Однак альтернативне тлумачення полягає в тому, що існує якийсь інший систематичний ефект, який ви не виключили.

— Джеромі Англім
джерело

+1 для систематичної частини. Я думаю, що в цьому випадку це найкраще пояснення варіацій у виконанні.

— mpiktas

2

Можливо, хочеться подивитися, як дослідники досліджували це питання. Класик - Гілович, Т., Валлоне, Р. та Тверський, А., гаряча рука в баскетболі: Про неправильне сприйняття випадкових послідовностей. Когнітивна психологія 17, 295-314 (1985).

— dmk38

2

Розрахуйте корелограму для вашого процесу. Якщо ваш процес є гауссовим (за зовнішнім виглядом вашого зразка), ви можете встановити нижню / верхню межу (B) і перевірити, чи є кореляційні кореляції за даного відставання. Позитивна автокореляція на відставанні 1 вказувала б на існування "смуг удачі".

2

Позитивна автокореляція також може бути наслідком інших систематичних ефектів, таких як процес навчання. Я думаю, що важливо усунути такі ефекти, перш ніж тлумачити автокореляцію як доказ "гарячої смуги".

— Джеромі Англім