Використання завантажувальної стрічки для отримання розподілу вибірки 1-го перцентиля


9

Я маю зразок (розмір 250) з популяції. Я не знаю розподілу населення.

Головне питання: я хочу бальну оцінку 1- го відсотка населення, а потім я хочу 95% -ний інтервал довіри навколо моєї точкової оцінки.

Моєю бальною оцінкою буде зразок 1- го відсотка. Я позначаю це .x

Після цього я намагаюся побудувати інтервал довіри навколо бальної оцінки. Цікаво, чи є сенс тут використовувати bootstrap. Я дуже недосвідчений у завантажувальній програмі, тому вибачте, якщо я не зможу використати відповідну термінологію тощо.

Ось як я намагався це зробити. Я малюю 1000 випадкових зразків із заміною з моєї оригінальної вибірки. Я отримую 1- й -перцентил від кожного з них. Таким чином, у мене є 1000 балів - "1- й відсоток". Я дивлюся на емпіричний розподіл цих 1000 балів. Я позначаю середнє значення його . Я позначаю "упередження" так: . Я беру 2,5 - відсотковий і 97,5- й перцентиліт з 1000 балів, щоб отримати нижній і вищий кінець того, що я називаю 95% -ним довірчим інтервалом навколо 1- го перцентилу початкового зразка. Позначу ці точки і .xmeanbias=xmeanxx0.025x0.975

Останнім кроком, що залишився, є адаптація цього довірчого інтервалу до рівня 1- го відсотка сукупності, а не до 1- го відсотка вихідного зразка . Таким чином, я беру як нижній кінець, а як верхній кінець 95-відсоткового довірчого інтервалу навколо точкової оцінки 1- го відсотка населення. Цей останній інтервал - це те, чого я шукав.xbias(xmeanx0.025)xbias+(x0.975xmean)

Вирішальний момент, на мій погляд, має сенс використовувати бутстрапа 1 - го -percentile що досить близько до хвоста невідомого вихідного розподілу населення. Я підозрюю, що це може бути проблематично; подумайте про використання завантажувальної програми для побудови інтервалу довіри приблизно мінімум (або максимум).

Але, можливо, такий підхід є помилковим? Будь ласка, дай мені знати.

Редагувати:

Трохи поміркувавши над проблемою, я бачу, що моє рішення передбачає наступне: емпіричний 1- й перцентиліт первинного зразка може бути упередженим оцінником 1- го відсотка населення. І якщо так, точкова оцінка повинна бути скоригована зміщенням: . В іншому випадку інтервал довіри, скоригований під нахил, не буде сумісним з оцінкою точок, що не регулюються зсувом. Мені потрібно скоригувати або точну оцінку, і інтервал довіри, або жодну з них.xbias

Якщо, з іншого боку, я не допустив, щоб оцінка була упередженою, я б не повинен був коригувати зміщення. Тобто, я б взяв як оцінку точки, а як нижній кінець, а як верхній кінець 95% довірчий інтервал. Я не впевнений, чи має цей інтервал сенс ...xx(xmeanx0.025)x+(x0.975xmean)

Тож чи має сенс вважати, що вибірка 1- го перцентилету є упередженою оцінкою чисельності 1- го перцентилету? А якщо ні, чи правильне моє альтернативне рішення?


Це прямо не розглядається питання самозавантаження, але це може бути корисно для вас: onlinecourses.science.psu.edu/stat414/node/231
shadowtalker

Відповіді:


11

Висновок завантажувальної програми для крайностей розподілу, як правило, сумнівний. Під час завантаження n-out-of-n мінімальний або максимум у вибірці розміру , у вас є ймовірність того, що ви відтворите ваш зразок екстремального спостереження, і приблизно приблизно шансу відтворити ваше друге екстремальне спостереження тощо. Ви отримуєте детермінований розподіл, який має мало спільного з формою нижнього розподілу в кінці. Більше того, завантажувальна програма не може дати вам нічого нижче вашого мінімального зразка, навіть якщо дистрибутив має підтримку нижче цього значення (як це було б у більшості безперервних дистрибутивів, як, наприклад, нормальне).n1(11/n)n1exp(1)=63.2%exp(1)exp(2)=23.3%

Рішення складні і покладаються на комбінації асимптотики з теорії екстремальних значень та піддиагностики менше, ніж n спостережень (насправді, набагато менше, швидкість повинна сходитися до нуля, як ).n


Відповідь корисна, але я хотів би зрозуміти, наскільки близький 1-й перцентиль до мінімуму щодо поведінки завантажувача? Я здогадуюсь, що у дуже великих зразках 1-й перцентил можна вважати "далеким" від мінімуму, і проблеми, перераховані вище, можна ігнорувати, тоді як у малих зразках 1-й перцентиль буде самим мінімальним, а проблем буде багато. Таким чином, ми знаходимося десь посеред. Я здогадуюсь, що мій вибірковий вибір у 250 спостереженнях слід вважати досить малим у цьому відношенні.
Річард Харді
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.