Зважена варіація, ще один раз


17

Неупереджена зважена дисперсія вже була розглянута тут і в інших місцях, але все ще здається, що це дивовижна сум'яття. Здається, існує консенсус щодо формули, представленої у першому посиланні, а також у статті Вікіпедії . Це також виглядає як формула, яку використовують R, Mathematica та GSL (але не MATLAB). Однак стаття у Вікіпедії також містить такий рядок, який виглядає як велика перевірка обґрунтованості щодо реалізації зваженої дисперсії:

Наприклад, якщо значення {2,2,4,5,5,5} отримані з одного розподілу, то ми можемо трактувати цей набір як невагомий зразок, або ми можемо трактувати його як зважений зразок {2,4, 5} з відповідними вагами {2,1,3}, і ми повинні отримати однакові результати.

Мої розрахунки дають значення 2,1667 для дисперсії вихідних значень і 2,9545 для зваженої дисперсії. Чи слід реально очікувати, що вони будуть однаковими? Чому або чому ні?


6
це питання стосується насправді не впровадження, але теорія, що стоїть за ним,
плутаєтьсяКодер

Відповіді:


15

Так, слід очікувати, що обидва приклади (невагомі проти зважених) дадуть однакові результати.

Я реалізував два алгоритми зі статті Вікіпедії.

Цей працює:

Якщо всі xi виведені з одного і того ж розподілу, а цілі ваги wi вказують на частоту зустрічань у вибірці, то неупереджений оцінювач зваженої дисперсії сукупності задається:

s2 =1V11i=1Nwi(xiμ)2,

Однак ця (з дробовими вагами) для мене не працює:

xi1/wi

s2 =V1V12V2i=1Nwi(xiμ)2

Я досі досліджую причини, чому друге рівняння не працює за призначенням.

/ EDIT: Знайдено причину, по якій друге рівняння не працювало, як я думав: ви можете використовувати друге рівняння лише в тому випадку, якщо у вас є нормалізовані ваги або дисперсія ("надійність") ваг, і воно НЕ є неупередженим, тому що якщо ви цього не зробите використовуючи ваги "повторення" (підраховуючи кількість разів, коли спостереження спостерігалося, і, таким чином, його слід повторити в математичних операціях), ви втрачаєте можливість підрахувати загальну кількість спостережень, і, таким чином, ви не можете використовувати коефіцієнт корекції.

Таким чином, це пояснює різницю ваших результатів із застосуванням зваженої та не зваженої дисперсії: ваші обчислення упереджені.

Таким чином, якщо ви хочете мати неупереджену зважену дисперсію, використовуйте лише "повторити" ваги і використовуйте перше рівняння, яке я розмістив вище. Якщо це неможливо, ну, ви не можете допомогти.

Я також оновив статтю Вікіпедії, якщо ви хочете отримати додаткову інформацію: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

І пов'язана стаття про неупереджену зважену коваріацію (що насправді є такою ж дисперсією через ідентичність поляризації ): Правильне рівняння для зваженої неупередженої коваріації вибірки


Після того, як я багато читав і замислювався над цим, я все ще не отримую інтуїтивного значення або прикладу терміна "ваги надійності". Чи можете ви, будь ласка, детальніше розібратися в цьому?
Петро

@ Ваги надійності Петера є нормалізованими вагами, наприклад, обмеженими між 0 і 1 або -1 і 1. Вони представляють частоту (наприклад, 0,1 означає, що цей зразок бачили 10% часу порівняно з усіма іншими зразками). Я не вигадав термін, його можна знайти в публікаціях. Для повторних ваг навпаки, кожна вага представляє кількість випадків, кардинальність (наприклад, 10, якщо зразок спостерігали 10 разів).
габоровий

Це заплутано, тому що те, що ви називаєте повторними вагами, часто називають також частотними вагами , але я думаю, що я отримав різницю. Це залежить від нормалізації, правда?
Пітер

Ні, частотні ваги - це альтернативна назва ваг надійності. Для повторних ваг - це кількість випадків, а не частота. При повторному зважуванні нормалізація взагалі не відбувається, в цьому і справа: доки ви нормалізуєте ваги, ви втрачаєте базову частоту, тому ви не можете повністю відкинути свої розрахунки. Єдиний спосіб - зберегти загальну кількість випадків. Якщо ви дійсно хочете використовувати частотні ваги, я думаю, якщо ви заздалегідь зберігаєте загальну кількість N випадків, яку ви можете перетворити назад і назад, щоб повторити ваги, помноживши ваги частоти на N, тоді це все в порядку.
габоровий

А якщо ваги ваги 1 / дисперсійні ваги, як би ви їх назвали? Це були б "ваги надійності" тоді?
Том Венсельєр
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.