Розробка тесту для екстрасенса, який каже, що він може впливати на рулони з кістки

Скажімо, у мене є друг (назвемо його "Джордж"), який каже, що він може керувати рулонними кістками, використовуючи свій розум (тобто, зробіть так, щоб кубики падали на певну кількість, про яку він думає).

Як я можу розробити науково суворий тест, щоб визначити, чи він насправді може це зробити? (Я, звичайно, не думаю, що він може, звичайно, але я хочу, щоб він погодився з деталями тесту, вражаючим стилем Ранді до початку тесту.) Я хочу зменшити (дуже ймовірно) після тестових виправдань що він придумає.

Ось що я маю досі:

Визначте техніку кочення фізичних кісток (які кістки, чашка шейкера, поверхня для посадки тощо)
Визначте "тестовий сеанс", що складається з X рулонів кістки. Це повинно бути достатньо малим, щоб зробити це за один засідання, але достатньо великим, щоб визначити (після аналізу) в межах 95% -99% впевненості, що кістки випали справедливими, або вигідно одній стороні
Запускайте сеанси Y на вибраних кістяках (без впливу Джорджа), як "контроль", щоб переконатися, що кістки показують "справедливі" результати самостійно
Запустіть Z сесії з Джорджем. Перед кожним розкачайте окремий штамб, щоб визначити, на яке число Джордж буде "зосереджено" протягом усього сеансу.
Складіть і проаналізуйте результати.
Джордж виправдовує свої жахливі виступи.

Тож мої запитання до вас:

Якісь недоліки чи проблеми з моєю загальною методологією? Що б Джордж, швидше за все, заперечив?
Чи варто використовувати D6? Або D20? Це важливо? Чи потребує штампу з більшою кількістю облич більше рулонів, щоб отримати аналогічно впевнені результати? Або навпаки? Я вважаю за краще менше рулонів, ніж більше, через практичні міркування :)
Які розумні значення для X , Y та Z ? Вони не зовсім споріднені; якщо вибране значення X дозволяє лише 95% довіри за один сеанс, то 1 з кожні 20 сеансів може "провалитися", навіть без впливу Джорджа
Як визначити "успіх" чи "провал" для окремого сеансу? (Я знайшов це запитання, яке детально описує тест чи-квадрата, тому я вважаю, що це моя методологія оцінки, але які розумні пороги довіри?)
Як визначити "успіх" чи "провал" для загального тесту? Джордж може "виграти" один сеанс за шансом, але скільки Z сесій йому доведеться пройти, щоб пройти весь тест?

Я, мабуть, буду аналізувати ці результати в електронній таблиці MS Excel, якщо це має значення.

probability experiment-design dice

— БредК
джерело

Якщо він лише розумом маніпулює кубиками, то хтось повинен їх кидати. Я думаю, що такі речі, як D6 або D20, повинні залишатися Джорджем. Яку маніпуляцію сказав Джордж, що він може зробити? Чи сказав він, що може зробити ту чи іншу кількість, яку він побажав? Якщо так, то успіхи були б випадками такої кількості, тоді як невдачі були б чим-небудь іншим.

— Іван

@John - Він лише стверджує, що може змусити цю цифру з’являтися частіше, ніж це було б інакше, не те, що вона завжди буде нараховувати це число.

— BradC

(Спочатку задавали версію цього питання на сайті math.stackexchange.com/q/57624/14626 )

— BradC

ваші відповіді з математики Майкла Харді та TonyK обидва хороші.

— Іван

Я не був би задоволений рівнем довіри на рівні 95% або навіть 99%; надзвичайні вимоги, як правило, вимагають надзвичайних доказів. Або кажучи про більш байєсівський контекст, моє попереднє переконання, що він володіє такою здатністю, настільки низька, що я вимагав би смішних доказів, щоб змістовно змінити мою задню віру.

— Майкл МакГоуан

Відповіді:

Я рекомендую проаналізувати це наступним чином:

Розрахуйте кожну роль, в якій Джордж успішно прогнозує результат як успіх, а кожну іншу - як невдачу. Тоді ви легко підрахуєте ймовірність успіху для Джорджа та 95% або 99% інтервал довіри. Чи стверджує він, що він може передбачити результат «вдвічі більше», як випадкове кочення кісток? Потім:

H0: p> = 1/3

Н1: р <1/3

(припускаючи 6-сторонній штамб).

Звідти зробити тест гіпотези досить просто. Також можна апріорі обчислити потужність досить легко (навіть у чомусь на зразок Excel). Виберіть декілька рулонів (наприклад, 10), а потім складіть таблицю з можливими успіхами у вигляді рядків (0-10). Тоді для кожного успіху обчислюйте ймовірність того, що він матиме стільки успіхів (якби він просто здогадувався, що ми припускаємо, що він робить). Також для кожного значення визначте, чи призведе це до відхилення або прийняття нуля. Потім, щоб знайти потужність, ви можете просто скласти всі ймовірності, де нуль буде відхилено.

— random_forest_fanatic
джерело

Для того, щоб Джордж досяг успіху, для D20 знадобиться більше рулонів для того ж рівня значущості, якщо вам потрібно буде провести тест на квадрат-чі. Я не думаю, що вам потрібно проводити повний тест на квадрат чіс-квадрату. Потрібно просто перевірити, чи кость перекидає "вибране" число частіше, ніж випадково. Я просто використовую cdf двочлена, щоб обчислити значення p прокрутки вибраного числа частіше, ніж випадкові випадки, з як біноміального параметра для D6. Я думаю, що легко визначити число на основі p-значення, яке потрібно для успіху Джорджа. Я навіть не впевнений, що вам потрібні сеанси Z. Чому б просто не провести один сеанс для кожної сторони плашки. Чи рандомізація обраної сторони має значення для гіпотез, які вас цікавлять? $\theta=\frac{1}{6}$ $X$

— highBandWidth
джерело

Рандомізація обраної сторони, мабуть, не має значення, мене просто хвилювало А) Облік можливих справжніх ухилів у кубиках і В) Переконайтесь, що будь-який єдиний аномальний сеанс (про те, що 1 з 20 через справжню випадковість я говорив) Не сприймається як підтвердження його психічних здібностей. Напевно, 6 сеансів, по одному на кожне число, буде достатньо, якщо мій Х (і рівень довіри) досить високий.

— BradC