Я досить новачок у статистиці (жменька курсів Uni для початківців) і цікавився вибіркою з невідомих дистрибутивів. Зокрема, якщо ви не маєте поняття про базовий розподіл, чи є якийсь спосіб «гарантувати» отримання репрезентативного зразка?
Приклад для ілюстрації: скажіть, ви намагаєтеся з’ясувати глобальний розподіл багатства. Для будь-якої окремої людини можна якось дізнатися їх точне багатство; але ви не можете "взяти на себе вибірку" кожної людини на Землі. Отже, скажімо, ви вибірково n = 1000 людей навмання.
Якщо ваш зразок не включав Білла Гейтса, ви можете подумати, що мільярдерів не існує.
Якщо в вибірку включено Білла Гейтса, ви можете подумати, що мільярдери зустрічаються частіше, ніж є насправді.
В будь-якому випадку ви не можете сказати, наскільки поширені чи рідкісні мільярдери; можливо, ви навіть не зможете сказати, чи взагалі існують такі.
Чи існує кращий механізм вибірки для такого випадку?
Як би ви апріорі сказали, яку процедуру відбору проб використовувати (і скільки зразків потрібно)?
Мені здається, що вам, можливо, доведеться «взяти на вибірку» величезний відсоток населення, щоб з будь-яким наближенням знати, наскільки поширені чи рідкісні мільярдери на планеті, і що це пов'язано з тим, що основний розподіл є дещо складним працювати.