Я знаю, що це досить гаряча тема, де ніхто насправді не може дати просту відповідь. Тим не менш, мені цікаво, чи не може бути корисним наступний підхід.
Метод завантаження корисний лише в тому випадку, якщо ваш зразок дотримується більш-менш (читайте точно) того ж розподілу, що і вихідний сукупність. Для того, щоб бути впевненим, це так, вам потрібно зробити розмір вибірки достатньо великим. Але що досить велике?
Якщо моя передумова є правильною, у вас є та сама проблема, коли ви використовуєте центральну граничну теорему для визначення середнього числа населення. Тільки тоді, коли розмір вибірки є досить великим, ви можете бути впевнені, що популяція вашої вибірки зазвичай розподіляється (середнє значення сукупності). Іншими словами, ваші зразки повинні досить добре відображати ваше населення (розподіл). Але знову ж таки, що досить велике?
У моєму випадку (адміністративні процеси: час, необхідний для завершення попиту та кількості запитів), у мене є населення з мультимодальним розподілом (усі вимоги, які закінчуються в 2011 році), з яких я на 99% впевнений, що це ще менше як правило, розподілений, ніж населення (усі вимоги, які закінчуються між сьогоднішнім днем і днем у минулому, в ідеалі цей часовий проміжок є як можна меншим), я хочу дослідити.
Моя сукупність 2011 року існує з недостатньої кількості одиниць, щоб зробити зразків розміром вибірки n . Я вибираю значення x , припустимо, 10 ( x = 10 ). Тепер я використовую пробну помилку та помилку, щоб визначити хороший розмір вибірки. Я беру n = 50 і бачу, чи нормально середня кількість мої вибірки розподіляється за допомогою Колмогорова-Смірнова. Якщо так, я повторюю ті ж дії, але з розміром вибірки 40 , якщо не повторюю, з розміром вибірки 60 (тощо).
Через деякий час я роблю висновок, що - це абсолютний мінімальний розмір вибірки, щоб отримати більш-менш добре представлення моєї популяції 2011 року. Оскільки я знаю, що моє зацікавлене населення (усі вимоги, які закінчуються між сьогоднішнім днем і минулим днем) має меншу дисперсію, я сміливо можу використовувати вибірки розміром n = 45 для завантаження. (Побічно, n = 45 визначає розмір мого часу: час, необхідний для завершення 45 вимог.)
Це, коротше, моя ідея. Але оскільки я не статистик, а інженер, чиї уроки зі статистики проходили за часів доби, я не можу виключити можливості, що я просто створив багато сміття :-). Як ви думаєте, хлопці? Якщо мій прийом має сенс, чи потрібно вибрати більший за 10 чи менший? Залежно від ваших відповідей (мені потрібно бентежити чи ні? :-) Я викладу ще кілька дискусійних ідей.
відповідь на першу відповідь Спасибі за відповідь, Ваша відповідь була дуже корисною для мене, особливо посилання на книги.
Але я побоююся, що в своїй спробі дати інформацію я повністю затьмарила своє питання. Я знаю, що зразки завантажувальної програми беруть на себе розподіл вибіркової сукупності. Я повністю за тобою стежу, але ...
Ваш вихідний зразок популяції повинен бути достатньо великим, щоб бути помірно впевненим, що розподіл вашої вибірки населення відповідає (дорівнює) реальному розподілу населення.
Це лише ідея про те, як визначити, наскільки великим повинен бути ваш початковий розмір вибірки, щоб бути впевненим, що вибірковий розподіл відповідає розподілу населення.
Припустимо, у вас бімодальний розподіл населення, і одна верхівка набагато більша, ніж інша. Якщо розмір вибірки становить 5, шанс більший, що всі 5 одиниць мають значення, дуже близьке до великого верху (шанс оголосити випадковим чином намалювати одиницю там найбільший). У цьому випадку ваш зразок розподілу буде виглядати одномодальним.
Якщо розмір вибірки становить сто, шанс, що ваш розподіл вибірки також є бімодальним, значно більший !! Проблема з завантажувальним завантаженням полягає в тому, що у вас є лише один зразок (і ви будуєте далі на цьому зразку). Якщо вибірковий розподіл дійсно не відповідає розподілу населення, у вас виникають проблеми. Це лише ідея, щоб зробити шанс «поганого розподілу вибірки» якомога меншим, не збільшуючи розмір вибірки нескінченно великим.