Як зробити вибірку, коли ви не знаєте розподілу

9

Я досить новачок у статистиці (жменька курсів Uni для початківців) і цікавився вибіркою з невідомих дистрибутивів. Зокрема, якщо ви не маєте поняття про базовий розподіл, чи є якийсь спосіб «гарантувати» отримання репрезентативного зразка?

Приклад для ілюстрації: скажіть, ви намагаєтеся з’ясувати глобальний розподіл багатства. Для будь-якої окремої людини можна якось дізнатися їх точне багатство; але ви не можете "взяти на себе вибірку" кожної людини на Землі. Отже, скажімо, ви вибірково n = 1000 людей навмання.

Якщо ваш зразок не включав Білла Гейтса, ви можете подумати, що мільярдерів не існує.
Якщо в вибірку включено Білла Гейтса, ви можете подумати, що мільярдери зустрічаються частіше, ніж є насправді.

В будь-якому випадку ви не можете сказати, наскільки поширені чи рідкісні мільярдери; можливо, ви навіть не зможете сказати, чи взагалі існують такі.

Чи існує кращий механізм вибірки для такого випадку?

Як би ви апріорі сказали, яку процедуру відбору проб використовувати (і скільки зразків потрібно)?

Мені здається, що вам, можливо, доведеться «взяти на вибірку» величезний відсоток населення, щоб з будь-яким наближенням знати, наскільки поширені чи рідкісні мільярдери на планеті, і що це пов'язано з тим, що основний розподіл є дещо складним працювати.

— сінмеш
джерело

1

У випадку розподілу багатства багато що залежатиме від того, яка саме була мета. Якщо, наприклад, метою було оцінити рівень багатства, який ставив би людину в топ-10%, 20% тощо, то не було б критично, чи включали вибірку мільярдери чи ні. Але якщо метою було оцінити частку багатства, що займає загальні 10%, то те, яким чином вибіркове оброблення мільярдерів, мабуть, буде критичним. Загальний пункт тут полягає в тому, що те, чи є зразок репрезентативним, завжди відносно того, що ви намагаєтесь зробити.

— Адам Бейлі

справді? Відкрита проблема, відповіді хороші, все-таки є наближеннями (іноді кращими, іноді гіршими). Це відкрита проблема, можливо, єдина відкрита проблема статистики

— Нікос М.

9

Я заперечую вашу заяву, що "в будь-якому випадку ви не можете дійсно сказати, наскільки поширені чи рідкісні мільярдери". Дозволяє $f$ бути невідомою часткою мільярдерів серед населення. З рівномірною формою до $f$ , задній розподіл $f$ після $1000$ розіграші, у яких виявилося 0 мільярдерів, - це бета (1,1001) розподіл, який виглядає приблизно так: p (f | b = 0)

При цьому задній розподіл $f$ після $1000$ розіграші, у яких виявився 1 мільярдер, - це бета-версія (2,1000), яка виглядає приблизно так: p (f | b = 1)

В обох випадках ви можете бути впевнені в цьому $f < 0.01$ . Ви можете подумати, що це недостатньо точно. Але насправді 0,01 є досить точним для вибірки розміром 1000. Більшість інших величин, які ви могли б оцінити, були б менш точними, ніж ця. Наприклад, частку самців можна було оцінити лише в діапазоні розмірів 0,1.

— Том Мінка
джерело

7

Ви можете зробити дві речі (окремо або в поєднанні)

Моделюйте хвіст

Перший - це моделювання хвоста розподілу за допомогою параметричного розподілу. Відомо, що закони про владу добре відповідають розподілу багатства, тому ви спробуйте розподілити Парето. Ви або підходите до цього розподілу за максимальною вірогідністю, тобто знаходячи параметри, які найкраще представляють вашу вибірку. Або ще краще, ви можете поставити байєсівські пріори за параметрами і обчислити повну задню частину.

На жаль, закони про потужність дуже чутливі до параметрів, і без багатьох великих точок даних у вашому зразку буде багато невизначеності щодо показника. Орієнтовна кількість мільярдерів буде чутливою до цього параметра, але набагато менше, ніж середнє багатство мільярдерів, тому ситуація не надто погана.

Важливість вибірки

Інший - змінити спосіб збору вашої вибірки. Припустимо, ви підозрюєте, що (як слід) у Монако чи Цюріху більше мільярдерів на душу населення, ніж у Могадісіу. Якщо ви знаєте населення кожного з цих міст, ви можете зібрати більшу вибірку в містах, де ви очікуєте побачити більше мільярдерів, а менший - в інших.

Так, скажімо, Цюріх налічує 400 000 людей, а Могадішу 1400000, і ми хочемо опитувати 9000 людей. Нас тут цікавить кількість мільйонерів, а не мільярдерів.

Незаангажований зразок відібрав би 2000 людей у Цюріху і 7000 в Могадішу. Однак ми будемо зміщувати зразок, відбираючи вибірки в Цюріху в сім разів. Тож ми "зробимо вигляд", що в Цюріху є 2800000 людей, і згодом налагодимо. Це означає, що ми будемо опитувати 6000 людей у Цюріху замість 2 000 і 4 000 в Могадішу.

Скажімо, у нашому зразку Цюріха налічується 21 мільйонер, і лише 1 зразок Могадішу. Оскільки ми взяли вибірку Цюріха в 7 разів, ми вважали б її лише 3 мільйонерами.

Ця процедура зменшить дисперсію вашої оцінки. Він також може бути використаний спільно з першим методом, і в цьому випадку ви будете коригувати вибірку важливості під час встановлення параметричного розподілу.

— Артур Б.
джерело

6

Я думаю, що хороший метод вибірки ґрунтується на попередніх знаннях системи. У вашій галузі ви маєте знання про потенційні ухили, які можуть вплинути на вибірку. Якщо у вас немає цих знань, ви можете отримати їх з літератури.

У вашому прикладі ви знаєте, що є мільярдери і що вони можуть упереджувати вашу вибірку. Таким чином, ви можете вирішити стратифікувати вибірку за рівнем освіти, країною, типом роботи тощо. Існує кілька варіантів.

Спробуємо з іншим прикладом. Ваша мета - визначити чисельність видів мишей у парку. У цьому парку є ліс і луки. З літератури ви знаєте, що миші частіше в лісі, ніж луки. Таким чином, ви стратифікуєте свою вибірку за цією характеристикою. Можлива інша процедура відбору проб, але я думаю, що найкраща інформація буде з наявної літератури.

А якщо немає літератури про ваше поле? Неймовірно, але в цьому контексті я б зробив попереднє дослідження, щоб побачити, які фактори потрібно враховувати для вибірки.

— Емілі
джерело

2

Незалежно від того, чи є зразок репрезентативним чи ні, не має нічого спільного з спостережуваними вимірюваннями вибірки. Вибірка є репрезентативною, якщо кожен набір спостережних одиниць має однакову ймовірність бути обраним, як і будь-який інший набір однакового розміру. Звичайно, це важко зробити, якщо ви не зможете отримати повне перерахування зразкового простору. Якщо припустити, що ви можете отримати це (наприклад, із даних перепису тракту), то проста випадкова вибірка буде репрезентативною.

Незалежно від того, як ви отримаєте зразок, завжди потрібно мати щонайменше три окремі джерела помилок:

помилка вибірки: випадково ви включите Білла Гейтса у свій представницький зразок. Статистичні методи, особливо ширини довірчих інтервалів тощо, призначені для усунення цього, за умови, що у вас є деякі грубі знання про розподіл (наприклад, нормальність, якої розподіл багатства точно не має).

Зміщення вибірки: зразок не був репрезентативним. Приклад: у Білла Гейтса номер, що не входить до списку, тому ваше телефонне опитування ніколи не може дістатися до нього (якщо тільки ви не використовуєте щось на зразок "набір випадкових цифр"). Це надзвичайний приклад, але зміщення вибірки дуже поширене. Поширене явище - взяти зразки на місці чи зручності: Ви відбираєте меценатів у ресторані , чи подобається їм місце, як часто вони побували там та чи планують повертатися. Повторні покупці набагато частіше підлягають вибірці, ніж разові клієнти, і зразки такого типу можуть бути сильно упередженими у своїх відносинах.

Зміщення відповіді: самі вимірювання неточні. Це може статися через що-небудь від несправності лічильника до свідомого брехні до квантових ефектів (наприклад, принцип невизначеності Гейзенберга).

— користувач3697176
джерело

Ця відповідь є корисною порадою і висвітлює хорошу основу. Я хотів би припустити, що характеристика "репрезентативного" може бути занадто обмежуючою, оскільки вона виключає загальні та корисні форми вибірки (включаючи деякі конкретно зазначені в інших відповідях), такі як стратифікований відбір проб, важливість вибірки та форми систематичного відбору вибірки. . Чи не буде достатньо дозволити вибірку репрезентативної, коли відомий шанс включення будь-якого набору спостережних одиниць (і тому їх можна використовувати для отримання неупереджених оцінок), але не обов'язково постійний для всіх наборів заданого розміру?

— whuber

@whuber "Чи не достатньо дозволити, щоб зразок був репрезентативним, коли відомий шанс включити будь-який набір спостережних одиниць ...": Це правильно, і я повинен редагувати свою відповідь, щоб визнати стратифіковану вибірку та важливість вибірки. Однак систематична вибірка є непростою, і поради, що даються у посиланнях та інших місцях, просто неправильні. Якщо в даних є систематичні зразки, рандомізована початкова точка не усуне зміщення, все, що потрібно зробити, це переконатися, що ви не зможете обчислити зміщення.

— користувач3697176

можливо найкраща відповідь поки що (у сенсі націлювання безпосередньо на статистичну точку)

— Нікос М.