Асимптотичні препарати для взяття проб з гіперкуба


11

Я намагаюся створити доказ проблеми, над якою я працюю, і одне з припущень, які я роблю, - це те, що набір точок, з яких я відбираю, є щільним на всьому просторі. Практично я використовую відбір з латинських гіперкубів, щоб отримати мої точки за весь пробний простір. Що я хотів би знати, якщо зразки латинських гіперкубів є щільними на всьому просторі, якщо ви дозволите, що розмір вибірки має тенденцію до ? Якщо так, цитування цього факту було б дуже вдячне.


4
Так, припускаючи безперервний розподіл, тому що для будь-якого ви можете встановити кількість поділів таким, що всі інтервали на змінну мають ширину . Таким чином, принаймні один гіперінтервал (тобто об'єм вибірки) суворо міститься в гіперкубі ширини навколо будь-якої обраної вами точки. (Коментар, а не відповідь, оскільки все, що я знаю про LHS, походить з Вікіпедії станом на десять хвилин тому ...)ϵ>0<ϵ/2ϵ
Креозот

Це правда, але я не думаю, що його можна легко використати для виявлення щільності великих зразків латинських гіперкубів. Причиною цього є те, що вибіркові точки в LHS не є незалежними: існування вибіркової точки всередині конкретного гіперінтервалу не дозволяє будь-яким іншим точкам вибірки з’являтися в тому ж рядку / стовпці (або будь-який багатовимірний термін для цього) .
S. Catterall Відновити Моніку

@Creosote, ви думаєте, ви могли б більше формалізувати свою відповідь?

@RustyStatistician, будь ласка, розгорніть своє вступне повідомлення, щоб пояснити, формально, як цього вимагає ваш доказ, що ви маєте на увазі під "набором балів, з яких я відбираю вибір, щільним по всьому простору". Дякую.
Креозот

Якщо я візьму початковий зразок латинської гіперкуби, де настільки великий, ми вважаємо це нечітким, чи є цей зразок щільним? " n

Відповіді:


6

Коротка відповідь: Так, ймовірнісно. Можна показати, що, враховуючи будь-яку відстань , будь-яке кінцеве підмножина пробного простору та будь-який встановлений 'допуск' , для відповідних великих розмірів вибірки ми можемо бути упевнений , що ймовірність того, що є зразок точка на відстані від є для всіх .{ x 1 , , x m } δ > 0 ϵ x i > 1 - δ i = 1 , , mϵ>0{x1,,xm}δ>0ϵxi>1δi=1,,m

Довга відповідь: я не знаю жодного прямо релевантного цитування (але дивіться нижче). Більшість літератури про латинські проби гіперкуба (LHS) стосуються його властивостей зменшення дисперсії. Інше питання полягає в тому, що означає говорити про те, що розмір вибірки має тенденцію до ? Для простого випадкового відбору IID вибірку розміру можна отримати з вибірки розміром шляхом додавання подальшої незалежної вибірки. Що стосується LHS, я не думаю, що ви можете це зробити, оскільки кількість зразків зазначається заздалегідь у рамках процедури. Виходить, що ви повинні взяти послідовність незалежних вибірок LHS розміру .п п - 1 1 , 2 , 3 , . . .nn11,2,3,...

Існує також необхідний спосіб інтерпретувати "щільний" межа, оскільки розмір вибірки має тенденцію до . Схоже, щільність не визначається детерміновано для LHS, наприклад, у двох вимірах, ви можете вибрати послідовність зразків LHS розміром така, що всі вони дотримуються діагоналі . Тож якесь імовірнісне визначення видається необхідним. Нехай для кожного , бути зразком розміру генерується в відповідно до деякого стохастическим механізмом. Припустимо, що для різних ці вибірки є незалежними. Тоді для визначення асимптотичної щільності нам може знадобитися це для кожного і для кожного1,2,3,...[0,1)2nXn=(Xn1,Xn2,...,Xnn)nnϵ>0x у просторі вибірки (вважається ) маємо ( як ).[0,1)dn P(min1knXnkxϵ)0n

Якщо вибірка отримана шляхом взяття незалежних зразків з розподілу ('IID випадкова вибірка'), тоді де - об'єм -вимірної кулі радіуса . Тож звичайно IID випадкова вибірка є асимптотично щільною. n U ( [ 0 , 1 ) d ) P ( m i n 1 k nX n k - x ϵ ) = n k = 1 P ( X n k - x ϵ ) ( 1 - v ϵ 2 - d ) nXnnU([0,1)d)v ϵ d ϵ

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

Тепер розглянемо випадок, що зразки отримані LHS. Теорема 10.1 у цих примітках зазначає, що всі члени вибірки розподіляються як . Однак перестановки, які використовуються у визначенні LHS (хоча і незалежні для різних розмірів), викликають деяку залежність між членами вибірки ( ), тому менш очевидно, що властивість асимптотичної щільності має місце.X n U ( [ 0 , 1 ) d ) X n k , k nXnXnU([0,1)d)Xnk,kn

Виправити і . Визначте . Хочемо показати, що . Для цього ми можемо скористатись пропозицією 10.3 у цих записках , яка є своєрідною теоремою про центральну межу для вибірки латинської гіперкуби. Визначте по якщо знаходиться в кулі радіуса навколо , іншому випадку. Тоді пропозиція 10.3 повідомляє нам, що де іx [ 0 , 1 ) d P n = P ( m i n 1 k nX n k - x ϵ ) P n0 f : [ 0 , 1 ] dR f ( z ) = 1 z ϵ x f ( z )ϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0f:[0,1]dRf(z)=1zϵxf(z)=0Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni) .

Візьміть . Врешті-решт, для досить великого нас з'явиться . Отже, зрештою у нас буде . Тому , де стандартний звичайний cdf. Оскільки було довільним, то випливає, що як потрібно.L>0nnμ<LPn=P(Yn=nμ)P(Yn<L)lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

Це доводить асимптотичну щільність (як визначено вище) як для iid випадкового вибірки, так і для LHS. Неофіційно це означає, що з урахуванням будь-якого та будь-якого у просторі вибірки ймовірність потрапляння вибірки в межах з може бути зроблена наближення до 1, наскільки Ви хочете, вибравши розмір вибірки достатньо великий. Легко розширити поняття асимптотичної щільності так, щоб застосувати до кінцевих підмножин вибіркового простору - застосовуючи те, що ми вже знаємо, до кожної точки кінцевого підмножини. Більш формально це означає, що ми можемо показати: для будь-якого і будь-якого кінцевого підмножини зразкового простору,ϵxϵxϵ>0{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1 (як ).n


У мене є два питання: 1) Якщо у вас просто вибірка розміру де є великим, чи змінює це аргумент? І 2) Зразки латинських гіперкубів можуть знаходитись у будь-якому діапазоні значень (не обов'язково просто (0,1)), так чи це також змінює їх відповідь? nn

Також ви хочете пояснити, чому для досить великого нас буде ? Я припускаю , що означає , що при великому , прагне до нуля, так як в розподілі це ? nnμnμ^LHSN(0,Σ)

@RustyStatistician Все визначається у вигляді кінцевих вибірок, тобто але великих. Я додав додаткове пояснення наприкінці, щоб пояснити, що відбувається. Інші діапазони значень можуть бути легко розміщені ((0,1) не є спеціальним), якщо об'єм простору для вибірки є кінцевим. n<
S. Catterall Reinstate Monica

Чи можете ви детальніше розглянути свою коротку відповідь?

@RustyStatistician Коротка відповідь - це неофіційний підсумок моєї довгої відповіді, який, я думаю, погодьтесь, вже досить детальний! Отже, як було запропоновано вище, було б добре, якщо ви зможете переписати своє запитання більш формальними термінами, щоб я знав, чи відповідає моя спроба відповіді правильно (з точки зору відповіді на ваше намічене запитання) чи ні.
S. Catterall Відновіть Моніку

3

Я не впевнений, чи це саме те, що ти хочеш, але ось що.

Ви скажете LHS- точок з , скажімо. Ми будемо дуже неофіційно стверджувати, що для будь-якого очікувана кількість порожніх (гіпер) кубоїдів розміром у кожному вимірі переходить до нуля як .n[0,1)dϵ>0ϵn

Нехай так що якщо ми розділимо рівномірно на крихітні кубоїди - мікрокубоїди , скажімо, - шириною то кожна кубічна ширина- містить хоча б одну мікрокубоїду. Отже, якщо ми можемо показати, що очікувана кількість безпробних мікрокубоїдів дорівнює нулю, в граничній мірі як , ми закінчили. (Зверніть увагу, що наші мікрокубої розташовані на звичайній сітці, але -cuboids може знаходитися в будь-якому положенні.)m=2/ϵ[0,1)dmd1/mϵnϵ

Шанс повністю пропустити дану мікрокубоїду з першою точкою вибірки становить , незалежно від , оскільки перший набір координат вибірки (перша точка вибірки) може бути вибраний вільно. Зважаючи на те, що перші кілька точок вибірки пропустили цю мікрокубоїду, наступні вибіркові бали буде важче пропустити (в середньому), тому ймовірність пропуску всіх очок менша .1mdndn(1md)n

У є мікрокубоїди , тому очікуване число, яке пропущено, обмежене вище - тому що очікування додають - що є нуль в обмеженні як .md[0,1)dmd(1md)nn


Оновлення ...

(1) Ось малюнок, який показує, як для даного ви можете вибрати достатньо великого розміру, щоб сітка "мікрокубоїдів" (квадрати на цій двовимірній ілюстрації) гарантувала наявність принаймні однієї мікросхеми в межах будь-який регіон розміром . Я показав дві "випадкові" області -chosen і пофарбував у фіолетовий колір дві мікрокубоїди, які вони містять.ϵmm×m ϵ×ϵϵ×ϵ

введіть тут опис зображення

(2) Розгляньте будь-яку конкретну мікрокубоїд. Він має об'єм , частка всього простору. Тож перший зразок LHS - який єдиний обраний абсолютно вільно - пропустить його з вірогідністю . Єдиний важливий факт - це фіксоване значення (будемо нехай , але збережемо постійним), що менше .(1/m)dmd1mdnm1

(3) Тепер подумайте про кількість точок вибірки . Я проілюстрував на малюнку. LHS працює в тонкій сітці цих надмаленьких розмірів "нанокубоїдів" (якщо ви хочете), не більших "Мікрокубоїди" розміром , але насправді це не важливо для підтвердження. Доказ потребує лише злегка розмахуючи рукою, що в середньому стає поступово важче, щоб не пропустити дану мікрокубоїд, коли ви скидаєте більше очок. Таким чином , це була ймовірність для перших LHS точки відсутня, але менше , ніж для всіх з них відсутню: Це нуль в межіn>mn=6mn1×n1m1×m11md(1md)n nn .

(4) Усі ці епілони чудово підтверджують, але не чудові для вашої інтуїції. Отже, ось декілька зображень, що ілюструють та зразкових точок, з найбільшою порожньою прямокутною площею. (Сітка - це сітка для відбору проб LHS - згадані раніше "нанокубоїди".) Має бути "очевидним" (в якомусь невиразному інтуїтивному розумінні), що найбільша порожня область скоротиться довільно невеликого розміру, як кількість точок вибірки .n=10n=50n

введіть тут опис зображення


Чи справедливий цей аргумент для будь-якого загального інтервалу? Замість ? [0,1)

Так, для будь-яких кінцевих розмірів. Тепер має бути зрозуміліше, коли я зафіксував доказ.
Креозот

чи можна дати 1-d або навіть 2-d картину цього доказу? Я в цьому сильно загубився.

Зроблено. Раді прийняти додаткові запитання, якщо буде потреба.
Креозот

Дивовижне дякую! Це, безумовно, допомагає зараз з інтуїцією.
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.