Я нобіль у статистиці, тож чи можете ви, хлопці, допомогти мені тут.
Моє запитання таке: Що насправді означає об'єднана дисперсія ?
Коли я шукаю формулу для об'єднаної дисперсії в Інтернеті, я знаходжу багато літератури, використовуючи наступну формулу (наприклад, тут: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):
Але що це насправді обчислює? Тому що, коли я використовую цю формулу для обчислення моєї об'єднаної дисперсії, вона дає мені неправильну відповідь.
Наприклад, розглянемо ці "батьківські вибірки":
Дисперсія цього батьківського зразка становить , а його середнє значення ˉ x p = 5 .
Тепер, припустимо, я розділив цей батьківський зразок на два під зразки:
- Перша підпроба - 2,2,2,2,2 із середнім значенням та дисперсією S 2 1 = 0 .
- Другий підвибір становить 8,8,8,8,8 із середнім значенням та дисперсією S 2 2 = 0 .
Тепер, чітко, використовуючи вищезазначену формулу для обчислення об'єднаної / батьківської дисперсії цих двох субпроб, отримаємо нуль, оскільки і S 2 = 0 . Отже, що насправді обчислює ця формула ?
З іншого боку, після деякого тривалого виведення я знайшов формулу, яка створює правильну відмінність / батьківську дисперсію:
У наведеній вище формулі, і д 2 = ¯ х 2 - ˉ х р .
Я знайшов подібну формулу з моєю, наприклад тут: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, а також у Вікіпедії. Хоча я мушу визнати, що вони виглядають не так, як у мене.
Отже, знову ж таки, що насправді означає об'єднана дисперсія? Чи не повинно це означати дисперсію батьківського зразка від двох підпроб? Або я тут абсолютно помиляюся?
Спасибі заздалегідь.
EDIT 1: Хтось каже, що мої два вище зразки патологічні, оскільки вони мають нульову дисперсію. Ну, я можу навести вам інший приклад. Розглянемо цей батьківський зразок:
Дисперсія цього батьківського зразка становить , його середнє значення ˉ x p = 25,5 .
Тепер, припустимо, я розділив цей батьківський зразок на два під зразки:
- Перша підпроба 1,2,3,4,5 із середнім значенням та дисперсією S 2 1 = 2,5 .
- Другий підвибір 46,47,48,49,50 із середнім значенням та дисперсією S 2 2 = 2,5 .
Тепер, якщо ви використовуєте "формулу літератури" для обчислення об'єднаної дисперсії, ви отримаєте 2,5, що абсолютно неправильно, оскільки дисперсія батьків / об'єднаних повинна бути 564,7. Натомість, якщо ви використовуєте "мою формулу", ви отримаєте правильну відповідь.
Будь ласка, зрозумійте, я використовую тут крайні приклади, щоб показати людям, що формула дійсно неправильна. Якщо я використовую "звичайні дані", які не мають великої кількості варіацій (крайні випадки), результати цих двох формул будуть дуже схожими, і люди можуть відкинути різницю через помилку округлення, а не тому, що сама формула є неправильно.