Як зробити репрезентативний набір вибірки з великого загального набору даних?


10

Які статистичні прийоми для створення вибіркового набору, який є репрезентативним для всієї сукупності (з відомим рівнем довіри)?

Також,

  • Як перевірити, якщо зразок відповідає загальному набору даних?
  • Чи можливо, без розбору всього набору даних (що може бути мільярдами записів)?

Відповіді:


8

Якщо ви не хочете проаналізувати весь набір даних, то, ймовірно, ви не можете використовувати стратифіковану вибірку , тому я б запропонував взяти великий простий випадковий зразок . Беручи випадкову вибірку, ви гарантуєте, що вибірка в середньому буде репрезентативною для всього набору даних, а стандартні статистичні заходи точності, такі як стандартні помилки та довірчі інтервали, підкажуть вам, наскільки віддалені значення сукупності ваших оцінок вибірки бути, тому немає реальної необхідності підтверджувати, що зразок є репрезентативним для населення, якщо у вас є якісь занепокоєння, які справді були вибірені випадково.

Наскільки великий простий випадковий зразок? Ну, чим більша вибірка, тим точнішими будуть ваші оцінки. Оскільки у вас вже є дані, звичайні обчислення розміру вибірки насправді не застосовні - ви можете також використовувати стільки вашого набору даних, скільки практично для обчислень. Якщо ви не плануєте робити складний аналіз, який зробить час обчислення проблемою, простим підходом було б зробити просту випадкову вибірку такою великою, наскільки її можна проаналізувати на вашому ПК, не приводячи до підкачкиабо інші проблеми з пам'яттю. Одне правило, щоб обмежити розмір вашого набору даних не більше половини оперативної пам’яті комп'ютера, щоб мати можливість маніпулювати ним і залишати місце для ОС та, можливо, для інших інших менших додатків (наприклад, редактора та веб-браузера ). Ще одне обмеження полягає в тому, що 32-розрядні операційні системи Windows не дозволять адресному простору жодного додатку бути більшим за231 байт = 2,1 Гб, тому якщо ви використовуєте 32-бітну Windows, 1 Гб може бути розумним обмеженням розміру набору даних.

Тоді справа у простій арифметиці, щоб обчислити, скільки спостережень можна взяти на вибір, враховуючи, скільки змінних у вас є для кожного спостереження та скільки байтів займає кожна змінна.


Дякую за вашу відповідь. Я думаю, я шукаю стратифіковану вибірку. (Я шукав алгоритми, які обчислювально не дуже дорогі, як не розбирати все населення, скласти репрезентативний набір, навіть не має сенсу. :-))
Mohit Ranka

2

По-перше, у вашому другому запитанні ви можете запитати: "як вводилися дані?" Якщо ви вважаєте, що дані були введені порівняно довільно (тобто незалежно від будь-яких спостережуваних або непомітних характеристик ваших спостережень, які можуть вплинути на ваш остаточний аналіз з використанням даних), то ви можете розглянути перші 5 мільйонів, скажімо, або проте з багатьма вам зручно працювати, як представник повного зразка і вибирайте випадковим чином з цієї групи, щоб створити зразок, з яким можна працювати.

Для порівняння двох емпіричних розподілів ви можете використовувати qq-графіки та двопаралементний тест Колмогорова – Смірнова на відмінності в розподілах (див., Наприклад, тут: http://en.wikipedia.org/wiki/Kolmogorov%E2 % 80% 93Smirnov_test ). У цьому випадку ви протестуєте розподіл кожної змінної у вашій вибірці проти розподілу цієї змінної у вашому "повному" наборі даних (знову ж, це може бути лише 5 мільйонів спостережень з вашої повної вибірки). Тест на KS може страждати від малої потужності (тобто важко відкинути нульову гіпотезу про відсутність різниці між групами), але, маючи в цьому безліч спостережень, вам слід добре.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.