Коротка відповідь:
В основному, більш переконливо мати 600 з 1000, ніж шість з 10, оскільки, з огляду на рівні переваги, набагато частіше 6 з 10 трапляються випадково.
Давайте зробимо припущення - що частка, яка віддавала перевагу апельсинам і яблукам, насправді однакова (так, 50% кожен). Назвіть це нульовою гіпотезою. Враховуючи ці рівні ймовірності, ймовірність двох результатів:
- Враховуючи вибірку з 10 осіб, є 38% шансів випадково отримати вибірку з 6 і більше людей, які віддають перевагу апельсинам (що не все, що малоймовірно).
- У вибірці з 1000 людей є менше 1 на мільярд шансів мати 600 і більше з 1000 людей віддають перевагу апельсинам.
(Для простоти я припускаю нескінченну сукупність, з якої беруть необмежену кількість зразків).
Просте виведення
Один із способів отримати цей результат - просто перерахувати потенційні способи поєднання людей у наших зразках:
Для десяти людей це легко:
Розгляньте малюнок з 10 випадкових випадків з нескінченної сукупності людей, що мають однакові переваги до яблук чи апельсинів. З рівними уподобаннями легко просто перерахувати всі потенційні комбінації 10 людей:
Ось повний список.
r C (n=10) p
10 1 0.09766%
9 10 0.97656%
8 45 4.39453%
7 120 11.71875%
6 210 20.50781%
5 252 24.60938%
4 210 20.50781%
3 120 11.71875%
2 45 4.39453%
1 10 0.97656%
0 1 0.09766%
1024 100%
r - кількість результатів (люди, які віддають перевагу апельсинам), C - кількість можливих способів, що багато людей віддають перевагу апельсинам, і p - результуюча дискретна ймовірність того, що багато людей віддають перевагу апельсинам у нашому зразку.
(p - просто C, поділене на загальну кількість комбінацій. Зауважте, що існує 1024 способи впорядкування цих двох переваг загалом (тобто 2 до потужності 10).
- Наприклад, існує лише один спосіб (один зразок) на 10 людей (r = 10), щоб усі вважали за краще апельсини. Те саме стосується всіх людей, які віддають перевагу яблукам (r = 0).
- Є 10 різних комбінацій, в результаті яких дев'ять з них віддають перевагу апельсинам. (Одна людина віддає перевагу яблукам у кожному зразку).
- Є 45 зразків (комбінацій), де 2 людини віддають перевагу яблукам тощо тощо.
(Взагалі ми говоримо про n C r комбінації результатів r від вибірки з n людей. Є онлайн-калькулятори, які можна використовувати для перевірки цих чисел.)
Цей список дозволяє нам наводити вище ймовірності, використовуючи просто ділення. Є 21% шансів потрапити до вибірки 6 людей, які віддають перевагу апельсинам (210 з 1024 комбінацій). Шанс отримати шість і більше людей у нашій вибірці становить 38% (сума всіх зразків з шести і більше людей, або 386 з 1024 комбінацій).
Графічно вірогідності виглядають приблизно так:
З більшою кількістю кількість потенційних комбінацій швидко зростає.
Для зразків всього 20 осіб існує 1048 576 можливих зразків, всі з однаковою ймовірністю. (Примітка. Я показав лише кожну другу комбінацію нижче).
r C (n=20) p
20 1 0.00010%
18 190 0.01812%
16 4,845 0.46206%
14 38,760 3.69644%
12 125,970 12.01344%
10 184,756 17.61971%
8 125,970 12.01344%
6 38,760 3.69644%
4 4,845 0.46206%
2 190 0.01812%
0 1 0.00010%
1,048,576 100%
Є ще один зразок, де всі 20 людей віддають перевагу апельсинам. Комбінації, які мають змішані результати, набагато ймовірніші, просто тому, що існує набагато більше способів поєднання людей у вибірках.
Упереджені зразки набагато малоймовірніші лише тому, що є менше комбінацій людей, які можуть призвести до цих вибірок:
Що стосується всього 20 осіб у кожному зразку, сукупна ймовірність наявності 60% або більше (12 і більше) людей у нашому зразку, що віддають перевагу апельсинам, падає до всього 25%.
Видно, що розподіл ймовірностей стає тоншим і вищим:
З 1000 людей цифри величезні
Ми можемо поширити вищенаведені приклади на більші зразки (але цифри зростають занадто швидко, щоб було можливо перерахувати всі комбінації), натомість я обчислив ймовірності в R:
r p (n=1000)
1000 9.332636e-302
900 5.958936e-162
800 6.175551e-86
700 5.065988e-38
600 4.633908e-11
500 0.02522502
400 4.633908e-11
300 5.065988e-38
200 6.175551e-86
100 5.958936e-162
0 9.332636e-302
Сукупна ймовірність наявності 600 або більше з 1000 людей віддають перевагу апельсинам лише 1,364232e-10.
Розподіл ймовірностей зараз набагато більш зосереджений навколо центру:
[
(Наприклад, для обчислення ймовірності рівно 600 з 1000 людей, які віддають перевагу апельсинам в R, dbinom(600, 1000, prob=0.5)
що дорівнює 4,633908e-11, а ймовірність 600 і більше людей 1-pbinom(599, 1000, prob=0.5)
, що дорівнює 1,364232e-10 (менше 1 на мільярд).