Визначення квантів у зваженому зразку


12

У мене є зважений зразок, для якого я хочу обчислити кванти. 1

В ідеалі, де ваги рівні (чи = 1 або іншим чином ), то результати будуть несумісними з тими scipy.stats.scoreatpercentile()і R - х quantile(...,type=7).

Одним з простих підходів було б "множення" вибірки за допомогою наведених ваг. Це фактично дає локально "плоский" ecdf у зонах ваги> 1, що інтуїтивно виглядає як неправильний підхід, коли зразок насправді є субпробором. Зокрема, це означає, що зразок з усіма вагами, рівними 1, має різні кванти, ніж один з вагами, рівними 2, або 3. (Зауважте, однак, що папір, на яку посилається в [1], схоже, використовує цей підхід.)

http://en.wikipedia.org/wiki/Percentile#Weighted_percentile дає альтернативну рецептуру для зваженого процентиля. У цій рецептурі не зрозуміло, чи слід спочатку поєднувати сусідні зразки з однаковими значеннями та підсумовувати їх ваги, і в будь-якому випадку його результати не відповідають рівню за замовчуванням типу 7 quantile()у невагомому / однаково зваженому випадку. Сторінка вікіпедії на квантових показниках взагалі не згадує зваженого випадку.

Чи існує зважене узагальнення квантильної функції "типу 7" R?

[використовуючи Python, але просто шукаю алгоритм, насправді, тому будь-яка мова буде робити]

М

[1] Ваги - цілі числа; ваги - це ті буфери, які поєднуються в операціях "згортання" та "вихід", як описано в http://infolab.stanford.edu/~manku/papers/98sigmod-quantiles.pdf . По суті зважений зразок - це піддіампліка повного невагомого зразка, причому кожен елемент x (i) у підпробі, що представляє вагові (i) елементи в повному зразку.


Тема досить стара, але ось NumPy код Зважені квантилі stackoverflow.com/a/29677616/498892
Alleo

Відповіді:


5

Це один із можливих підходів:

Припустимо, у вас є впорядкований зразок з відповідними вагами .X1X2XnW1,W2,,Wn

Визначте тому і .

Sk=(k1)Wk+(N1)i=1k1Wi
S1=0Sn=(N1)i=1NWi

Для інтерполяції кількісного знайдіть такий, що . Тоді ваша оцінка може бутиpkSkSnpSk+1Sn

Xk+(Xk+1Xk)pSnSkSk+1Sk.

Я думаю, ви виявите, що якщо всі рівні, то це відтворює R-7. Є й інші підходи, які теж роблять, але я підозрюю, що вони не розглядають усі впорядковані ваги як однаково важливі.Wi


Може виникнути проблема, якщо два значення у вибірці рівні, але мають різну вагу - я не маю на увазі про це.
Генрі
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.