Наскільки добре завантажувальна оцінка наближає розподіл вибірки оцінювача?


29

Нещодавно вивчивши завантажувальний тренажер, я придумав концептуальне питання, яке все ще мене спантеличує:

У вас населення, і ви хочете знати атрибут популяції, тобто , де я використовую для представлення населення. Наприклад, ця може бути середньою кількістю населення. Зазвичай ви не можете отримати всі дані від населення. Отже, ви намалюєте зразок розміру з сукупності. Припустимо, у вас є зразок iid для простоти. Тоді ви отримуєте свій оцінювач . Ви хочете використовувати щоб робити висновки про , тож ви хочете знати мінливість .θ=г(П)ПθХNθ^=г(Х)θ^θθ^

По-перше, існує справжній розподіл вибірки . Концептуально ви можете взяти багато зразків (кожен з них має розмір ) з сукупності. Кожен раз, коли у вас буде реалізація оскільки кожен раз ви матимете інший зразок. Зрештою, ви зможете відновити справжній розподіл . Гаразд, це принаймні концептуальний орієнтир для оцінки розподілу . Дозвольте повторити: кінцева мета полягає у використанні різних методів для оцінки або наближення справжнього розподілу .θ^Nθ^=г(Х)θ^θ^θ^

Тепер тут виникає питання. Зазвичай у вас є лише один зразок який містить точок даних. Потім ви багато разів перепробовуєте цей зразок, і вам придумають розповсюдження завантаження . Моє запитання: наскільки близький цей розподіл завантажувальної машини до справжнього розподілу вибірки ? Чи існує спосіб її кількісної оцінки?ХNθ^θ^


1
Це дуже пов’язане питання містить безліч додаткової інформації, щоб зробити це питання, можливо, повторюваним.
Сіань

По-перше, дякую всім за відповідь на мої запитання. Це перший раз, коли я використовую цей веб-сайт. Я ніколи не очікував, що моє запитання чесно приверне увагу когось. У мене тут невелике запитання, що таке "OP"? @ Silverfish
KevinKim

@Chen Jin: "OP" = оригінальний плакат (тобто ви!). Вибачення за використання абревіатури, яке я приймаю, є потенційно заплутаним.
Срібляста рибка

1
Я редагував назву так , щоб він більш точно відповідає Вашому твердженням , що «Моє питання: як близько це до істинного розподілу & thetas ? Чи є спосіб , щоб кількісно оцінити це?» Не соромтеся повернути його, якщо ви не вважаєте, що моя редакція відображає ваш намір. θ^
Срібна рибка

@Silverfish Дякую вам велике Коли я починаю цей плакат, я не зовсім впевнений у своєму питанні. Цей новий титул хороший.
KevinKim

Відповіді:


20

В інформаційній теорії типовим способом кількісного визначення того, як "закрити" один розподіл до іншого, є використання KL-дивергенції

Спробуємо проілюструвати це за допомогою сильно перекошеного набору даних з довгим хвостом - затримок прибуття літака в аеропорт Х'юстона (з пакету hflight ). Нехай θ буде середня оцінка. По- перше, ми знаходимо розподіл дискретизації & thetas , а потім розподіл початкового завантаження & thetasθ^θ^θ^

Ось набір даних:

введіть тут опис зображення

Справжня середня величина - 7,09 хв.

По- перше, ми робимо певну кількість зразків , щоб отримати розподіл вибірки & thetas , то ми беремо одну вибірку і взяти багато зразків початкового завантаження з нього.θ^

Наприклад, давайте розглянемо два розподіли з розміром вибірки 100 та 5000 повторень. Ми візуально бачимо, що ці розподіли є досить відокремленими, а розбіжність KL становить 0,48.

введіть тут опис зображення

Але коли ми збільшуємо розмір вибірки до 1000, вони починають збігатися (розбіжність KL становить 0,11)

введіть тут опис зображення

А коли розмір вибірки становить 5000, вони дуже близькі (розбіжність KL становить 0,01)

введіть тут опис зображення

Це, звичайно, залежить від того , самозавантаження зразка ви отримаєте, але я вірю , що ви можете побачити , що дивергенція KL йде вниз по мірі збільшення розміру вибірки, і , таким чином , самозавантаження розподіл & thetas наближається зразок розподілу & thetas з точки зору KL дивергенції. Щоб бути впевненим, ви можете спробувати зробити кілька завантажувальних програм і взяти середній показник розбіжності KL.θ^θ^

Ось R-код цього експерименту: https://gist.github.com/alexeygrigorev/0b97794aea78eee9d794


5
+1, і це також показує, що для будь-якого розміру вибірки (наприклад, 100) зміщення завантажувального кроку може бути великим і неминучим.
Амеба каже, що повернеться до Моніки

Цей дивовижний! Тому для того , щоб дозволити розподіл & thetas від початкового завантаження близька до істинного розподілу & thetas , ми повинні великий розмір вибірки N право? Для будь-якого фіксованого розміру вибірки, розподіл, створений з завантажувальної стрічки, може сильно відрізнятися від розподілу TRUE, як згадував @amoeba. θ^θ^N
КевінКім

Наступне моє запитання: Якщо я виправив досить великий, тоді я зробив 2 завантажувальні програми, один просто перепробову B = 10 разів, а інший повторний вибір B = 10000 . У чому різниця між розподілом θ , що виходять з цих 2 бутстрепов? Це питання, по суті , запитуючи , коли ми фіксуємо N , що роль , яку відіграє B у формуванні розподілу & thetas . @GrigorevNБ=10Б=10000θ^NБθ^
KevinKim

1
@Chen, але розподіл по & thetas є те , що ви отримуєте, роблячи передіскретізірует, НЕ так? Тож різниця між B = 10 і B = 10000 полягає в тому, що в одному випадку ви отримуєте 10 чисел для побудови розподілу (не так багато інформації не дуже достовірна оцінка його стандартного відхилення), а в іншому випадку ви отримуєте 10000 чисел (набагато більше надійний). θ^Б=10Б=100001010000
амеба каже, що повернеться до Моніки

1
@ Чень, я думаю, ви або трохи заплутані, або не дуже зрозуміли, що у вашому коментарі. Якщо ви повторно впорядкуєте 5 разів, ви отримаєте набір з 5 чисел. Як це розподіл? Це набір чисел! Ці цифри походять від того, що ви назвали розподілом F B. Чим більше число, тим краще ви можете оцінити F B . Ж555ЖБЖБ
амеба каже, що повернеться до Моніки

23

Бутстрап грунтується на збіжність емпіричної CDF до істинного ВВР, тобто Р п ( х ) = 1 сходиться п прямує до нескінченності)до F ( х ) для кожного х . Отжезбіжність розподілу самозавантаження по & thetas ( Х 1 , ... , Х п ) = г ( Р п ) наводитьсярухдопомогою цієї збіжностіяке відбувається зі швидкістю

Ж^н(х)=1нi=1нЯХiхХiiidЖ(х)
нЖ(х)хθ^(Х1,,Хн)=г(Ж^н) длякожногоx, оскількин хнавіть якщо такий швидкості і обмеження розподіл неавтоматично передаватиг( Р п). На практиці для оцінки варіабельності наближення, ви можете зробити оцінку початкового завантаження розподілуг( F п
н{Ж^н(х)-Ж(х)}distN(0,Ж(х)[1-Ж(х)])
г(Ж^н) шляхом подвійного завантаження, тобто шляхом оцінки завантаження програми завантаження.г(Ж^н)

В якості оновлення, тут є використання I ілюстрації в класі: введіть тут опис зображення де Л.Ш. порівнює справжнє CDF з емпіричним кором F п для п = 100 спостережень і ГРЗ ділянок 250 копій LHS, на 250 різних зразки, для тогодля вимірювання змінності наближення cdf. У прикладі я знаю правду, а тому можу імітувати з правди оцінку мінливості. В реальній ситуації, я не знаю , F іотжея повинен почати з F п замістьщоб зробити подібний графік.ЖЖ^нн=100250ЖЖ^н

Подальше оновлення: Ось як виглядає картина на трубці, починаючи з емпіричного cdf: введіть тут опис зображення


5
Суть цієї відповіді полягає в тому, що завантажувальний механізм працює, тому що це наближення великої вибірки . Я не думаю, що цей пункт наголошений досить
shadowtalker

2
Я маю на увазі, "підкреслюється досить часто взагалі"
shadowtalker

Ж^н=100

3
ЖнЖ

@ Xi'an Дуже приємно! було б навіть приємніше, якщо 2-ю та 3-ю фігури можна поєднати разом в одній фігурі
КевінКім
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.