Якщо ви не хочете проаналізувати весь набір даних, то, ймовірно, ви не можете використовувати стратифіковану вибірку , тому я б запропонував взяти великий простий випадковий зразок . Беручи випадкову вибірку, ви гарантуєте, що вибірка в середньому буде репрезентативною для всього набору даних, а стандартні статистичні заходи точності, такі як стандартні помилки та довірчі інтервали, підкажуть вам, наскільки віддалені значення сукупності ваших оцінок вибірки бути, тому немає реальної необхідності підтверджувати, що зразок є репрезентативним для населення, якщо у вас є якісь занепокоєння, які справді були вибірені випадково.
Наскільки великий простий випадковий зразок? Ну, чим більша вибірка, тим точнішими будуть ваші оцінки. Оскільки у вас вже є дані, звичайні обчислення розміру вибірки насправді не застосовні - ви можете також використовувати стільки вашого набору даних, скільки практично для обчислень. Якщо ви не плануєте робити складний аналіз, який зробить час обчислення проблемою, простим підходом було б зробити просту випадкову вибірку такою великою, наскільки її можна проаналізувати на вашому ПК, не приводячи до підкачкиабо інші проблеми з пам'яттю. Одне правило, щоб обмежити розмір вашого набору даних не більше половини оперативної пам’яті комп'ютера, щоб мати можливість маніпулювати ним і залишати місце для ОС та, можливо, для інших інших менших додатків (наприклад, редактора та веб-браузера ). Ще одне обмеження полягає в тому, що 32-розрядні операційні системи Windows не дозволять адресному простору жодного додатку бути більшим за231 байт = 2,1 Гб, тому якщо ви використовуєте 32-бітну Windows, 1 Гб може бути розумним обмеженням розміру набору даних.
Тоді справа у простій арифметиці, щоб обчислити, скільки спостережень можна взяти на вибір, враховуючи, скільки змінних у вас є для кожного спостереження та скільки байтів займає кожна змінна.