Яка різниця між сукупністю та вибіркою?

38

Яка різниця між сукупністю та вибіркою? Які загальні змінні та статистичні дані використовуються для кожної з них, і як вони співвідносяться між собою?

— Балтімарк
джерело

1

Обов’язкове читання: Крігер, Н. (2012). Хто і що таке "населення"? Історичні дебати, поточні суперечки та наслідки для розуміння "здоров'я населення" та виправлення нерівностей у галузі охорони здоров'я . Квартал Мільбанку, 90 (4): 634–681.

— Олексій

36

Населення - це сукупність досліджуваних осіб. Наприклад, середній зріст чоловіків. Це гіпотетичне населення, оскільки воно включає всіх чоловіків, які прожили, живуть і житимуть у майбутньому. Мені подобається цей приклад, тому що він говорить про те, що ми, як аналітики, обираємо кількість населення, яку ми хочемо вивчити. Зазвичай неможливо обстежити / виміряти всю сукупність, оскільки не всі члени спостерігають (наприклад, чоловіки, які існуватимуть у майбутньому). Якщо можливо перерахувати все населення, це часто дорого коштує і забирає багато часу. У наведеному вище прикладі маємо сукупність "чоловіків" та параметр інтересу, їхній зріст.

Натомість ми могли б взяти підмножину цієї сукупності під назвою вибірки та використати цю вибірку для отримання висновків про досліджувану популяцію з огляду на деякі умови. Таким чином, ми могли б виміряти середній зріст чоловіків у вибірці сукупності, яку ми називаємо статистикою, і використовувати це для отримання висновків про параметр інтересу для населення. Це висновок, тому що буде робити певну невизначеність та неточність, що стосуватимуться висновків про сукупність на основі вибірки. Це повинно бути очевидним - у нас у вибірці менше членів, ніж населення, тому ми втратили деяку інформацію.

Існує багато способів відбору вибірки, і вивчення цього називається теорією вибірки. Загальновживаний метод називається простим випадковим відбору проб (SRS). У СРС кожен член населення має рівну ймовірність бути включеним до вибірки, звідси і термін "випадковий". Існує багато інших методів вибірки, наприклад, стратифікований відбір проб, кластерний відбір проб тощо, які мають всі свої переваги та недоліки.

Важливо пам’ятати, що вибірка, яку ми беремо з популяції, є лише однією з великої кількості потенційних вибірок. Якщо десять дослідників вивчали одне і те ж населення, складаючи власні зразки, вони можуть отримати різні відповіді. Повертаючись до нашого попереднього прикладу, кожен з десяти дослідників може придумати різний середній зріст чоловіків, тобто розглянутий статистичний показник (середній зріст) змінюється залежно від вибірки - він має розподіл, який називають розподілом вибірки. Ми можемо використовувати цей розподіл, щоб зрозуміти невизначеність в нашій оцінці параметра населення.

Як відомо, розподіл вибірки середнього зразка є звичайним розподілом зі стандартним відхиленням, рівним стандартному відхиленню вибірки, поділеному на розмір вибірки. Оскільки це можна легко сплутати зі стандартним відхиленням вибірки, звичайніше називати стандартне відхилення розподілу вибірки стандартною помилкою .

— Грем Кукссон
джерело

7

Чи не є трохи безглуздим використання "всіх людей коли-небудь" як населення? Я маю на увазі, що навіть не існує єдиної думки щодо того, скільки років є гомо сапієнсом , або чи homo neanderthalensis був окремим видом, не кажучи вже про те, чи вважають самців кам'яного інструменту, що використовують homo habilis , "чоловіків". Імовірно, ті ж проблеми зіткнуться і з нами в майбутньому.

— naught101

В останньому абзаці, я думаю, є незначна незначна рука, і вона повинна читати ... "рівне стандартному відхиленню вибірки, поділеному на [квадратний корінь] розміру вибірки" стосовно посилання на стандартну помилку .

— Антоні Пареллада

13

Населення - це цілий набір цінностей або окремих людей, які вас цікавлять. Вибірка - це підмножина сукупності, і це набір значень, які ви фактично використовуєте для своєї оцінки.

Так, наприклад, якщо ви хочете знати середній зріст жителів Китаю, це ваше населення, тобто чисельність населення Китаю. Справа в тому, що це досить велика кількість, і ви не зможете отримати дані для всіх там. Отже, ви малюєте зразок, тобто отримуєте певні спостереження або висоту когось із людей у Китаї (підмножина населення, вибірка) і робите висновок на основі цього.

— Vivi
джерело

Гарна відповідь. Я думаю, вам слід заглибитись у те, що ви маєте на увазі під «робити свої висновки на тому». Ось така друга частина мого запитання.

— Балтимарк

ммм ... Я насправді не зрозумів, що ти маєш на увазі під загальними змінними та статистикою ... О, ти маєш на увазі, як ти використовуєш z розподіл, якщо ти маєш дисперсію сукупності та t-розподіл, якщо ти маєш лише дисперсію вибірки а розмір вибірки невеликий? Щось уздовж цих ліній?

— Vivi

Що я отримував, це те, що середнє та стандартне відхилення - це параметри, пов'язані з сукупністю, але вони оцінюються за середньою вибіркою ((1 / N) * \ sum (x_i)) та стандартним відхиленням вибірки ((1 / ( N-1)) * \ сума (x_i - x ^ bar) ^ 2).

— Балтимарк

8

Населення - це все в групі дослідження. Наприклад, якщо ви вивчаєте ціну акцій Apple, це історичні, поточні та навіть усі майбутні ціни на акції. Або, якщо ви запускаєте фабрику яєць, це всі яйця, виготовлені фабрикою.

Вам не завжди потрібно робити вибірки та робити статистичні тести. Якщо ваше населення - ваша найближча родина, вам не потрібно робити вибірку, оскільки кількість населення невелика.

Відбір проб популярний з різних причин:

це дешевше, ніж перепис (вибірки всього населення)
у вас немає доступу до майбутніх даних, тому ви маєте вибірку минулого
ви повинні знищити деякі предмети, протестуючи їх, і не хочете знищувати їх усіх (скажімо, яйця)

— Ніл МакГуйган
джерело

2

Коли ми думаємо про термін "населення", ми зазвичай думаємо про людей у нашому місті, регіоні, штаті чи країні та їх відповідні характеристики, такі як стать, вік, сімейний стан, етнічна приналежність, релігія тощо. У статистиці термін «населення» набуває дещо іншого значення. "Популяція" в статистиці включає всіх членів певної групи, про яку ми вивчаємо чи збираємо інформацію для прийняття рішень, керованих даними.

Частина населення називається вибіркою. Це частка населення, його шматочок, його частина та всі його характеристики. Вибірка - це науково складена група, яка насправді володіє тими ж характеристиками, що й сукупність - якщо вона намальована випадковим чином (це може бути важко повірити, але це правда!)

Випадково відібрані зразки повинні мати дві характеристики:

* Кожна людина має рівні можливості бути обраними для вашої вибірки; і,

* Вибір однієї людини не залежить від вибору іншої людини.

Що стосується випадкових вибірок, то це те, що ви можете узагальнити населення, яке вас цікавить. Отже, якщо ви відібрали 500 домогосподарств у своїй громаді, ви зможете узагальнити до 50000 домогосподарств, які проживають там. Якщо ви співставите деякі демографічні характеристики 500 з 50 000, ви побачите, що вони напрочуд схожі.

— roseleneramas
джерело

2

Це в основному правильно, якщо правильно трактувати. Я хвилююся, що деякі читачі можуть ввести в оману, що прості випадкові вибірки із заміною (яка є видом випадкової вибірки, яку ви описуєте; є й інші види) правильно відтворюють усі характеристики популяції. Насправді вони рідко роблять. Суть випадкової вибірки полягає в тому, що (неминучі) відмінності між характеристиками вибірки та характеристиками сукупності можуть бути віднесені до процесу випадкового відбору.

— whuber

0

Населення включає всі елементи з набору даних. Вибірка складається з одного або декількох спостережень населення. BOA, A. (2012, 17)

— user91513
джерело

2

Коли всі елементи "набору даних" вважаються сукупністю, цей набір даних називається переписом населення. Надзвичайно мало наборів даних - це переписи населення.

— whuber