Дано чисел, де значення кожного числа різне, позначається як , а ймовірність вибору кожного числа відповідно .
Тепер, якщо я вибираю числа на основі заданих ймовірностей, де , яке очікування суми цих чисел? Зауважте, що вибір не є заміною, так що номери не можуть включати повторювані номери. Я розумію, що якщо виділення відбувається із заміною, очікування суми чисел дорівнює , де
Крім того, як бути з очікуванням дисперсії цих чисел?
Я аспірант CS, який працює над великою проблемою даних, і не маю жодної статистики. Я очікую, що хтось може дати мені формулу як відповідь. Однак якщо відповідь занадто складна, щоб описати її формулою, або потрібно залучити інтенсивні обчислення, приблизна відповідь цілком прийнятна.
Можна припустити, що тут досить велике, і ймовірність може сильно відрізнятися. На практиці значення цих ймовірностей надходять із журналу запитів, який записує низку запитів агрегації. Справа в тому, що частота кожного числа, що бере участь у запитах, може бути досить хиткою, тобто деякі рідко запитуються, а деякі запитуються дуже часто. Можна припустити, що розподіл ймовірностей - це нормальний розподіл, розподіл zipf або будь-які інші розумні альтернативи.
Розподіл значень - лише суміжний підмножина будь-якого можливого розподілу. Іншими словами, якщо у вас є гістограма, яка представляє певний розподіл, усі числа, що беруть участь у цій проблемі, - це числа, що знаходяться в одному відрі.
З точки зору значення K, ви можете вважати, що воно завжди менше кількості часто запитуваних елементів.