Визначення розміру вибірки, необхідного для завантажувального методу / Пропонований метод


33

Я знаю, що це досить гаряча тема, де ніхто насправді не може дати просту відповідь. Тим не менш, мені цікаво, чи не може бути корисним наступний підхід.

Метод завантаження корисний лише в тому випадку, якщо ваш зразок дотримується більш-менш (читайте точно) того ж розподілу, що і вихідний сукупність. Для того, щоб бути впевненим, це так, вам потрібно зробити розмір вибірки достатньо великим. Але що досить велике?

Якщо моя передумова є правильною, у вас є та сама проблема, коли ви використовуєте центральну граничну теорему для визначення середнього числа населення. Тільки тоді, коли розмір вибірки є досить великим, ви можете бути впевнені, що популяція вашої вибірки зазвичай розподіляється (середнє значення сукупності). Іншими словами, ваші зразки повинні досить добре відображати ваше населення (розподіл). Але знову ж таки, що досить велике?

У моєму випадку (адміністративні процеси: час, необхідний для завершення попиту та кількості запитів), у мене є населення з мультимодальним розподілом (усі вимоги, які закінчуються в 2011 році), з яких я на 99% впевнений, що це ще менше як правило, розподілений, ніж населення (усі вимоги, які закінчуються між сьогоднішнім днем ​​і днем ​​у минулому, в ідеалі цей часовий проміжок є як можна меншим), я хочу дослідити.

Моя сукупність 2011 року існує з недостатньої кількості одиниць, щоб зробити зразків розміром вибірки n . Я вибираю значення x , припустимо, 10 ( x = 10 ). Тепер я використовую пробну помилку та помилку, щоб визначити хороший розмір вибірки. Я беру n = 50 і бачу, чи нормально середня кількість мої вибірки розподіляється за допомогою Колмогорова-Смірнова. Якщо так, я повторюю ті ж дії, але з розміром вибірки 40 , якщо не повторюю, з розміром вибірки 60 (тощо).хнх10х=10н=504060

Через деякий час я роблю висновок, що - це абсолютний мінімальний розмір вибірки, щоб отримати більш-менш добре представлення моєї популяції 2011 року. Оскільки я знаю, що моє зацікавлене населення (усі вимоги, які закінчуються між сьогоднішнім днем ​​і минулим днем) має меншу дисперсію, я сміливо можу використовувати вибірки розміром n = 45 для завантаження. (Побічно, n = 45 визначає розмір мого часу: час, необхідний для завершення 45 вимог.)н=45н=45н=4545

Це, коротше, моя ідея. Але оскільки я не статистик, а інженер, чиї уроки зі статистики проходили за часів доби, я не можу виключити можливості, що я просто створив багато сміття :-). Як ви думаєте, хлопці? Якщо мій прийом має сенс, чи потрібно вибрати більший за 10 чи менший? Залежно від ваших відповідей (мені потрібно бентежити чи ні? :-) Я викладу ще кілька дискусійних ідей.х10

відповідь на першу відповідь Спасибі за відповідь, Ваша відповідь була дуже корисною для мене, особливо посилання на книги.
Але я побоююся, що в своїй спробі дати інформацію я повністю затьмарила своє питання. Я знаю, що зразки завантажувальної програми беруть на себе розподіл вибіркової сукупності. Я повністю за тобою стежу, але ...

Ваш вихідний зразок популяції повинен бути достатньо великим, щоб бути помірно впевненим, що розподіл вашої вибірки населення відповідає (дорівнює) реальному розподілу населення.

Це лише ідея про те, як визначити, наскільки великим повинен бути ваш початковий розмір вибірки, щоб бути впевненим, що вибірковий розподіл відповідає розподілу населення.

Припустимо, у вас бімодальний розподіл населення, і одна верхівка набагато більша, ніж інша. Якщо розмір вибірки становить 5, шанс більший, що всі 5 одиниць мають значення, дуже близьке до великого верху (шанс оголосити випадковим чином намалювати одиницю там найбільший). У цьому випадку ваш зразок розподілу буде виглядати одномодальним.

Якщо розмір вибірки становить сто, шанс, що ваш розподіл вибірки також є бімодальним, значно більший !! Проблема з завантажувальним завантаженням полягає в тому, що у вас є лише один зразок (і ви будуєте далі на цьому зразку). Якщо вибірковий розподіл дійсно не відповідає розподілу населення, у вас виникають проблеми. Це лише ідея, щоб зробити шанс «поганого розподілу вибірки» якомога меншим, не збільшуючи розмір вибірки нескінченно великим.

Відповіді:


38

Я зацікавився цим питанням, тому що побачив слово bootstrap і написав книги на завантажувальному пристрої. Також люди часто запитують "Скільки зразків завантажувальної машини мені потрібно, щоб отримати гарне наближення Монте-Карло до результату завантаження?" Моя запропонована відповідь на це питання полягає в тому, щоб продовжувати збільшувати розмір, доки ви не отримаєте конвергенцію. Жодне число не відповідає усім проблемам.

Але це, мабуть, не те питання, яке ви задаєте. Ви, здається, запитуєте, що такенннз оригінального зразка. Прийняття принципу завантаження чи ні, не залежить від будь-якого окремого зразка, "який виглядає представником населення". Від цього залежить те, що ви оцінюєте, та деякі властивості розподілу населення (наприклад, це працює для вибірки засобів з розподілом населення, які мають кінцеві відхилення, але не тоді, коли вони мають нескінченні відмінності). Це не буде працювати для оцінки крайнощів незалежно від розподілу населення.

Теорія завантажувальної програми передбачає виявлення послідовності оцінки. Тож теоретично можна показати, що він працює для великих зразків. Але він також може працювати в невеликих зразках. Я бачив, як це працює для оцінки рівня помилок класифікації особливо добре у невеликих розмірах вибірки, таких як 20 для двовимірних даних.

Тепер, якщо розмір вибірки дуже малий --- скажімо, 4 --- завантажувальна програма може не працювати лише тому, що набір можливих завантажувальних зразків недостатньо багатий. У моїй книзі чи книзі Пітера Холла обговорюється ця проблема занадто малого розміру вибірки. Але ця кількість чітких зразків завантажувального пристрою набуває великої швидкості. Тож це навіть не проблема для розмірів зразків, розміром яких становить 8. Ви можете ознайомитись із цими посиланнями:


3
Чи є якийсь стандартний тест, який потрібно запустити, щоб перевірити, чи немає (наприклад, 4 зразків) недостатньо? У мене є набір даних, де я обчислюю середні інтервали довіри для середнього рівня, але деякі особи мають дуже мало точок даних (<8 в деяких випадках). Мій інстинкт підказує мені, що я повинен ігнорувати людей, у яких менше n точок даних, але як потім я визначити цей переріз n? Я сподівався знайти загальноприйняте значення обрізання (аналогічно тому, як 6 або 7 є довільною точкою відсічення для кількості зразків на групу в аналізі змішаної моделі).
RTbecard

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.