Що саме означає "об'єднати дані"?


16

Я подумав, що "об'єднання даних" просто означало поєднання даних, які раніше були розділені на категорії ... по суті, ігнорування категорій і перетворення даних на один гігантський "пул" даних. Я думаю, це питання більше стосується термінології, ніж застосування статистики.

Наприклад: Я хочу порівняти 2 сайти, і в межах кожного сайту у мене два типи року (хороший і поганий). Якщо я хочу порівняти 2 сайти "загалом" (тобто ігноруючи типи року), чи правильно сказати, що я об'єдную дані на кожному сайті? На додаток до цього, оскільки кілька років дані містять добрий і поганий типи року, чи правильно також сказати, що я об'єдную дані серед років для досягнення набору даних про «хороший рік» та «поганий рік» на кожному сайті? Спасибі за вашу допомогу! Мог

Відповіді:


13

Так, ваші приклади правильні.

Оксфордський словник англійської мови визначає пул як:

пул, v.

(puːl)

1.1 транс. Перекинути в загальний запас або фонд, який розподіляється відповідно до домовленості; поєднувати (капітал або інтереси) задля загальної вигоди; спец. конкуруючих залізничних компаній тощо: для розподілу або поділу (трафік або квитанції).

Іншим прикладом може бути:

ви вимірюєте рівень крові речовини X у чоловіків і жінок. Ви не бачите статистичних відмінностей між двома групами, тому ви об’єднуєте дані разом , ігноруючи стать експериментального суб'єкта.

Чи буде це статистично правильно, дуже залежить від конкретного випадку.


12

Об'єднання може стосуватися об'єднання даних, але може також стосуватися об'єднання інформації, а не необроблених даних. Одне з найпоширеніших застосувань об’єднання - це оцінка дисперсії. Якщо ми вважаємо, що 2 популяції мають однакову дисперсію, але не обов'язково однакову середню, то ми можемо обчислити 2 оцінки дисперсії із зразків двох груп, а потім об'єднати їх (взяти середньозважене), щоб отримати єдину оцінку загальна дисперсія. Ми не обчислюємо єдиної оцінки дисперсії з об'єднаних даних, оскільки якщо засоби не рівні, то це буде надувати оцінку дисперсії.


Дякуємо @Greg. Для уточнення (оскільки я намагаюся поєднувати відхилення також з літератури), що ви говорите, що для отримання «середньої» дисперсії для декількох груп населення я можу взяти середньозважене середнє значення для обчислених варіацій? Як би я зважив ці відхилення? Чи не кожне населення = 1?
Мог

Якщо розміри вибірки рівні, то прості середні мають тенденцію працювати. Як правило, ми даємо кожній точці даних однакову вагу, стандартна формула полягає в тому, щоб помножити кожну дисперсію на ступінь свободи (або число в знаменнику на, ніж на групу, n-1), потім підсумовувати всі частини, а потім ділити на суму ступеня свободи (всі n_i-1).
Грег Сніг,
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.