Використання завантажувальної стрічки для отримання розподілу вибірки 1-го перцентиля

Я маю зразок (розмір 250) з популяції. Я не знаю розподілу населення.

Головне питання: я хочу бальну оцінку 1- ^го відсотка населення, а потім я хочу 95% -ний інтервал довіри навколо моєї точкової оцінки.

Моєю бальною оцінкою буде зразок 1- ^го відсотка. Я позначаю це . $x$

Після цього я намагаюся побудувати інтервал довіри навколо бальної оцінки. Цікаво, чи є сенс тут використовувати bootstrap. Я дуже недосвідчений у завантажувальній програмі, тому вибачте, якщо я не зможу використати відповідну термінологію тощо.

Ось як я намагався це зробити. Я малюю 1000 випадкових зразків із заміною з моєї оригінальної вибірки. Я отримую 1- ^й -перцентил від кожного з них. Таким чином, у мене є 1000 балів - "1- ^й відсоток". Я дивлюся на емпіричний розподіл цих 1000 балів. Я позначаю середнє значення його . Я позначаю "упередження" так: . Я беру 2,5 ^- відсотковий і 97,5- ^й перцентиліт з 1000 балів, щоб отримати нижній і вищий кінець того, що я називаю 95% -ним довірчим інтервалом навколо 1- ^го перцентилу початкового зразка. Позначу ці точки і . $x_{mean}$ $\text{bias}=x_{mean}-x$ $x_{0.025}$ $x_{0.975}$

Останнім кроком, що залишився, є адаптація цього довірчого інтервалу до рівня 1- ^го відсотка сукупності, а не до 1- ^го відсотка вихідного зразка . Таким чином, я беру як нижній кінець, а як верхній кінець 95-відсоткового довірчого інтервалу навколо точкової оцінки 1- ^го відсотка населення. Цей останній інтервал - це те, чого я шукав. $x-\text{bias}-(x_{mean}-x_{0.025})$ $x-\text{bias}+(x_{0.975}-x_{mean})$

Вирішальний момент, на мій погляд, має сенс використовувати бутстрапа 1 - ^го -percentile що досить близько до хвоста невідомого вихідного розподілу населення. Я підозрюю, що це може бути проблематично; подумайте про використання завантажувальної програми для побудови інтервалу довіри приблизно мінімум (або максимум).

Але, можливо, такий підхід є помилковим? Будь ласка, дай мені знати.

Редагувати:

Трохи поміркувавши над проблемою, я бачу, що моє рішення передбачає наступне: емпіричний 1- ^й перцентиліт первинного зразка може бути упередженим оцінником 1- ^го відсотка населення. І якщо так, точкова оцінка повинна бути скоригована зміщенням: . В іншому випадку інтервал довіри, скоригований під нахил, не буде сумісним з оцінкою точок, що не регулюються зсувом. Мені потрібно скоригувати або точну оцінку, і інтервал довіри, або жодну з них. $x-\text{bias}$

Якщо, з іншого боку, я не допустив, щоб оцінка була упередженою, я б не повинен був коригувати зміщення. Тобто, я б взяв як оцінку точки, а як нижній кінець, а як верхній кінець 95% довірчий інтервал. Я не впевнений, чи має цей інтервал сенс ... $x$ $x-(x_{mean}-x_{0.025})$ $x+(x_{0.975}-x_{mean})$

Тож чи має сенс вважати, що вибірка 1- ^го перцентилету є упередженою оцінкою чисельності 1- ^го перцентилету? А якщо ні, чи правильне моє альтернативне рішення?

— Річард Харді
джерело

Це прямо не розглядається питання самозавантаження, але це може бути корисно для вас: onlinecourses.science.psu.edu/stat414/node/231

— shadowtalker

Висновок завантажувальної програми для крайностей розподілу, як правило, сумнівний. Під час завантаження n-out-of-n мінімальний або максимум у вибірці розміру , у вас є ймовірність того, що ви відтворите ваш зразок екстремального спостереження, і приблизно приблизно шансу відтворити ваше друге екстремальне спостереження тощо. Ви отримуєте детермінований розподіл, який має мало спільного з формою нижнього розподілу в кінці. Більше того, завантажувальна програма не може дати вам нічого нижче вашого мінімального зразка, навіть якщо дистрибутив має підтримку нижче цього значення (як це було б у більшості безперервних дистрибутивів, як, наприклад, нормальне). $n$ $1 - (1-1/n)^n \sim 1 - {\rm exp}(-1) = 63.2\%$ ${\rm exp}(-1) - {\rm exp}(-2)=23.3\%$

Рішення складні і покладаються на комбінації асимптотики з теорії екстремальних значень та піддиагностики менше, ніж n спостережень (насправді, набагато менше, швидкість повинна сходитися до нуля, як ). $n\to\infty$

— СтасК
джерело

Відповідь корисна, але я хотів би зрозуміти, наскільки близький 1-й перцентиль до мінімуму щодо поведінки завантажувача? Я здогадуюсь, що у дуже великих зразках 1-й перцентил можна вважати "далеким" від мінімуму, і проблеми, перераховані вище, можна ігнорувати, тоді як у малих зразках 1-й перцентиль буде самим мінімальним, а проблем буде багато. Таким чином, ми знаходимося десь посеред. Я здогадуюсь, що мій вибірковий вибір у 250 спостереженнях слід вважати досить малим у цьому відношенні.

— Річард Харді