Очікування суми K чисел без заміни


9

Дано чисел, де значення кожного числа різне, позначається як , а ймовірність вибору кожного числа відповідно .nv1,v2,...,vnp1,p2,...,pn

Тепер, якщо я вибираю числа на основі заданих ймовірностей, де , яке очікування суми цих чисел? Зауважте, що вибір не є заміною, так що номери не можуть включати повторювані номери. Я розумію, що якщо виділення відбувається із заміною, очікування суми чисел дорівнює , деKKnKKKK×E(V)

E(V)=v1×p1+v2×p2+...+vn×pn.

Крім того, як бути з очікуванням дисперсії цих чисел?K

Я аспірант CS, який працює над великою проблемою даних, і не маю жодної статистики. Я очікую, що хтось може дати мені формулу як відповідь. Однак якщо відповідь занадто складна, щоб описати її формулою, або потрібно залучити інтенсивні обчислення, приблизна відповідь цілком прийнятна.

Можна припустити, що тут досить велике, і ймовірність може сильно відрізнятися. На практиці значення цих ймовірностей надходять із журналу запитів, який записує низку запитів агрегації. Справа в тому, що частота кожного числа, що бере участь у запитах, може бути досить хиткою, тобто деякі рідко запитуються, а деякі запитуються дуже часто. Можна припустити, що розподіл ймовірностей - це нормальний розподіл, розподіл zipf або будь-які інші розумні альтернативи.n

Розподіл значень - лише суміжний підмножина будь-якого можливого розподілу. Іншими словами, якщо у вас є гістограма, яка представляє певний розподіл, усі числа, що беруть участь у цій проблемі, - це числа, що знаходяться в одному відрі.

З точки зору значення K, ви можете вважати, що воно завжди менше кількості часто запитуваних елементів.


3
Очікування дисперсії суми буде різним без заміни; вам знадобиться кінцевий коефіцієнт корекції чисельності, якщо немає заміни. (Щоб зрозуміти це інтуїтивно, зауважте, що якщо K = n, дисперсія суми дорівнює нулю, тому що вона завжди буде однаковою кількістю; тому, коли K наближається до n, дисперсія суми буде меншою.)
zbicyclist

1
Це питання може бути складнішим, ніж може виглядати. Розглянемо випадок і . Очікувана сума двох значень, проведених із заміною, становить що вдвічі більше очікуваної суми одного значення курсу; але очікувана сума двох значень, проведених без заміни, очевидно, є за винятком випадків, коли . n=2(v1,v2)=(0,1)2p2v1+v2=12p2p1=p2=1/2
whuber

1
@zbicyclist Можливо, я чітко не заявив про проблему. У моєму сценарії, якщо K = N, то дисперсія цих чисел K буде дисперсією загальної сукупності, а не 0.
SciPioneer

1
(1) Це не схоже на питання самостійного вивчення для мене: це, схоже, справжня прикладна проблема, ймовірно. (2) Наскільки великим може бути ? Точні рішення виглядають нездійсненними, за винятком випадків, коли всі підмножини можна перерахувати. (3) Якщо може бути набагато більшим, ніж , що виключає швидке перерахування, що ви можете сказати про ? Наприклад, чи можуть вони змінюватися чи всі вони будуть досить близькими до ? Це може спонукати зусилля, щоб знайти приблизні відповіді. nn20pi1/n
whuber

1
Дякуємо за правки Чим більше ви можете розповісти нам про , , та , тим краще. Наприклад, якщо то формули вибірки із заміною повинні бути хорошими наближеннями (оскільки дуже мало значень, якщо такі є, вибиралися б більше одного разу). Я вважаю, що найскладнішими є випадки, коли існує широкий діапазон значень так що ви не можете просто замінити більшість з нулів, а ще з для значної кількості - і . NKvipiKmax(pi)1pipi>1/KiKN/2
whuber

Відповіді:


2

Це, мабуть, характер відповіді, яка, хоча й точна, напевно, не є такою корисною. Горвіц і Томпсон (1952) дають результати, які загалом висвітлюють цю ситуацію. Ці результати наведені з точки зору комбінаторних виразів, які можна очікувати.

Щоб дотримуватися їх позначень, а також краще відповідати більш широко використовуваним позначенням, дозвольте мені визначити деякі кількості. Нехай - кількість елементів у сукупності, а - розмір вибірки.Nn

Нехай , представляє елементів сукупності із заданими значеннями , та ймовірностями відбору . Для даної вибірки розміром нехай спостережувані значення у вибірці будуть .uii=1,...,NNVii=1,...,Np1,...,pNnv1,...,vn

Бажаними є середнє значення та дисперсія загальної вибірки

i=1nvi.

Як зазначалося в коментарях, ймовірність вибору конкретного зразка намальованого в такому порядку, становить де початкова ймовірність малювання задана , друга ймовірність малювання залежить від видалення з популяції тощо. Таким чином, кожна наступна одиниця, що витягується, призводить до нового розподілу ймовірностей для наступної одиниці (отже, вибору різних прописних літер, оскільки кожна представляє різний розподіл.)s={ui,uj,...,ut}

Pr(s)=pi1pj2ptn,
pi1uipipj2ujui

Є зразки розміром які містять від усієї сукупності. Зауважте, що це враховуєперестановки зразка.

S(i)=n!(N1n1)
nuin!

Нехай позначає конкретний зразок розміру який включає . Тоді ймовірність вибору елемента задається де підсумовування ведеться по безлічі розміру з всі можливі зразки розміру які містять . (Я трохи змінив позначення з паперу, оскільки мені це здалося заплутаним.)sn(i)nuiui

P(ui)=Pr(sn(i)),
S(i)sn(i)nui

Аналогічно визначте , як кількість зразків , що містять як і . Тоді ми можемо визначити ймовірність вибірки, що містить як де підсумовування перевищує набір розміру з усіх можливих вибірок розміру , які містять і .

S(ij)=n!(N2n2)
uiuj
P(uiuj)=Pr(sn(ij)),
S(ij)sn(ij)nuiuj

Очікуване значення потім виводиться як

E(i=1nvi)=i=1NP(ui)Vi.

Хоча дисперсія не виведена явно в роботі, вона може бути отримана з очікувань го моменту та перехресні продукти q

E(i=1nviq)=i=1NP(ui)Viq
E(ijnvivj)=ijP(uiuj)ViVj.

Іншими словами, схоже, що для проведення цих обчислень потрібно було б пройти всі можливі підмножини. Можливо, це можна зробити для менших значень , хоча.n

Horvitz, DG та Thompson, DJ (1952) Узагальнення вибірки без заміни з кінцевої всесвіту. Журнал Американської статистичної асоціації 47 (260): 663-685.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.