Оцінка дисперсії центральних цензурованих нормальних зразків


11

Я нормально розподілені процеси , з яких я отримую невеликі зразки ( п , як правило , 10-30) , що я хочу використовувати для оцінки дисперсії. Але часто зразки знаходяться настільки близько, що ми не можемо виміряти окремі точки біля центру.

Я маю таке розпливчасте розуміння, що ми повинні мати можливість побудувати ефективний оцінювач за допомогою впорядкованих зразків: Наприклад, якщо я знаю, що вибірка містить 20 балів, і що 10 кластеризуються поблизу центру занадто щільно, щоб вимірювати окремо, але у мене дискретні вимірювання 5 на будь-який хвіст, чи існує стандартний / формулярний підхід для оцінки дисперсії процесу, який забезпечує оптимальне використання таких зразків?

(Зверніть увагу, що я не думаю, що я можу просто зважити середнє середнє значення. Наприклад, можливо, що 7 зразків щільно кластеризуються, тоді як інші три асиметрично перекошені на одну сторону, але достатньо близько, що ми не можемо сказати, що без більш виснажливого одиночного відбору проб .)

Якщо відповідь складна, будь-які поради щодо того, що я повинен досліджувати, будуть вдячні. Наприклад, це проблема статистики замовлень? Чи є ймовірний відповідь, чи це обчислювальна проблема?

Оновлена ​​деталізація: Додаток - це аналіз стріляючих цілей. Один базовий зразок - це точка удару ( х, у ) одного пострілу в ціль. Основний процес має симетричний біваріантний нормальний розподіл, але немає кореляції між осями, тому ми можемо розглядати { x } та { y } зразки як незалежні малюнки з того ж нормального розподілу. (Можна також сказати, що основний процес розподілений Релеєм, але ми не можемо виміряти вибіркові змінні Релея, тому що ми не можемо бути визначеними координатами "справжнього" центру процесу, що для малих n може бути істотно віддалений від центру вибірки ( , ).)х¯у¯

Нам дають ціль і кількість пострілів в неї. Проблема полягає в тому, що для n >> 3 точні гармати, як правило, вистрілюють "рваний отвір", оточений різними пострілами. Ми можемо спостерігати x - і y- ширину отвору, але ми не знаємо, куди в отворі вдарили невиразні кадри.

Ось кілька прикладів більш проблемних цілей:

[Зразок цілі з n = 10]

Зразок цілі з n = 100

(Зрозуміло, що в ідеальному світі ми змінювали б / міняли цілі після кожного пострілу, а потім агрегували зразки для аналізу. Існує ряд причин, які часто недоцільні, хоча це робиться, коли це можливо .)

Подальші зауваження після пояснень ВУбера в коментарях: на пострілах створюються цільові отвори, що мають однаковий та відомий діаметр. Коли постріл знаходиться за межами будь-якої "рваної групи", ми знаємо радіус снаряда і тому можемо виміряти точний центр . У кожній "розірваній групі" ми можемо помітити деяку кількість периферійних "кульок" і знову позначити точний центр цих зовнішніх пострілів на основі відомого радіуса снаряду. Ми бачимо, що залишилися "центризовані" постріли, які потрапили лише десь у салоні "розірваної групи" (яка, як правило, - і якщо потрібно, припустимо, - одна на ціль).хi

Для полегшення рішення я вважаю, що найпростіше буде звести це до набору одновимірних зразків від норми з центральним інтервалом шириною w > d , де d - діаметр снаряда, що містить c < n "цензуровані" зразки.


(1) Чи є нормальне розподіл припущенням чи у вас є вагомі докази на підтвердження цього? (2) Чи є проблема в тому, що ви не можете точно підрахувати дані поблизу центру? (Це було б інакше, ніж звичайне значення "цензури". Це означає, що ви можете порахувати ці дані, але ви знаєте лише, що їх значення лежать в певні інтервали.)
whuber

@whuber: Так, у нас є як основні, так і емпіричні докази, що процес зазвичай розподілений. І так, ми знаємо точний підрахунок балів у загальній групі, і можемо спостерігати інтервал (и), де лежить занадто багато вибірок для визначення окремих значень.
footwet

Дякую, це корисно. Характер невизначеності все ще незрозумілий, але гарна модель може мотивувати гарне рішення. Чи можете ви надати ілюстрацію чи приклад або хоча б описати процес вимірювання трохи детальніше?
whuber

@whuber: оновлено. Якщо це допоможе, я також працюю над розміщенням посилань на деякі реальні зразки.
footwet

хi,(мк,σ2)σiБ(хi,r)rБ(х,r)rх

Відповіді:


2

Це цікава проблема. По-перше, я б не припускав нормального розподілу. Здається, те, що ви насправді шукаєте, - це деяка оцінка дисперсності, яку ви застосовуєте досить для багатьох стрільців, гармат, боєприпасів чи будь-чого іншого.

Я б спробував це перевернути. Ви точно не знаєте, куди пішли всі кулі, якщо ви не побачите 10 окремих дірок (якщо припустити 10 пострілів). Але ти знаєш, куди вони не поїхали. Це може бути використане для обмеження розподілу, припускаючи байєсівські статистичні дані, якщо ви хочете почати з розподілу.

Ідея, яка може бути найкращою тут, - перестати намагатися зробити це математично і просто зробити щось розумне, як це. Візьміть ціль і запустіть процедуру обробки зображень, щоб позначити знімок через ділянку, яка може бути непоєднана. Виміряйте середній і другий момент цього і скористайтеся цією оцінкою. Якщо ви хочете піти трохи далі і спробувати гауссіанізувати це, ви можете запустити простий експеримент Монте Карло, щоб отримати коефіцієнт калібрування.


Дозвольте трохи пояснити. Скажімо, у вас 10 пострілів і 6 чітких отворів, де ви знаєте, куди пішли кулі. Спочатку візьміть ці точки і використовуйте їх для обмеження ширини Гаусса. Дотримуючись звичайного розпорядку, це стримує сигму
Dave31415

Тепер, зробивши це, ви хочете розглянути 4 кулі, які не зробили нових дірок. Оскільки кулі незалежні, цю нову ймовірність (за сигмою Гаусса) можна просто примножити. Отже, в основному для кожної з 4 куль ви хочете помножити на ймовірність того, що вони не пророблять нову дірку.
Dave31415

Простий спосіб зробити це за допомогою monte carlo - намалювати набір сигми з вашого обмеженого розповсюдження і за допомогою цієї сигми обчислити шанс не зробити нову дірку. Таким чином, намалюйте з цього багато імітованих кадрів і порахуйте, яка частка не зробить нових дірок. Потім це можна використовувати для оновлення ймовірності. Потім перейдіть до наступного і зробіть те ж саме. Тепер у вас є остаточна ймовірність.
Dave31415

Останній коментар. З практичної точки зору, на оцінку сигми насправді не слід впливати так багато, куди саме пройшли невидимі кулі, поки ви припускаєте, що вони пройшли через попередні діри. Його здебільшого обмежуватимуть ті, які, як ви бачите, визначають край. Це тому, що шанс кулі пройти крізь отвір двічі, що знаходиться далеко від центру, дуже низький. Тож навіть сирий монте-карло наблизить вас до оптимального оцінювача.
Dave31415

Якщо ми не стверджуємо нормальне (або інше) розподіл, то мабуть, ми можемо сказати щось більше, ніж поставити верхню або нижню межу того, що відбувається в цензурованій області. У 1-мірному випадку, коли у нас є n знімків, цензурованих нижньою межею дисперсії, слід припустити, що всі вони потрапляють в одну і ту саму точку інтер'єру, найближчу до середньої, і (якщо припустити, що середнє значення зосереджено у внутрішніх місцях), верхня межа повинна бути припустимо, що цензурні точки однаково розподілені по периферії інтер'єру. Але якщо ми вважаємо, що основний процес є нормальним, то здається, що нам слід зробити щось краще.
footwet

0

З іншого боку, це можна було б побачити у світлі поля Просторової статистики, яке створило асортимент метрик, багато з яких розміщені у скриньках інструментів (див., Наприклад, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

У Вікіпедії (посилання: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) насправді є хороша вступна сторінка, на якій обговорюються такі поняття, як міри просторової центральної тенденції та просторової дисперсії. Процитуйте Вікіпедію на останньому:

"Для більшості застосувань просторову дисперсію слід кількісно оцінити таким чином, який інваріантний обертанням та відображенням. Декілька простих мір просторової дисперсії для множини точок можна визначити за допомогою матриці коваріації координат точок. Слід, детермінант , а найбільше власне значення матриці коваріації може використовуватися як міра просторової дисперсії. Міра просторової дисперсії, яка не заснована на матриці коваріації, - це середня відстань між найближчими сусідами. [1] "

Пов'язані поняття включають міри просторової однорідності, K і L функції Ріплі, і, можливо, найбільш актуальні для аналізу скупчень куль, тест Кьюзіка-Едвардса для кластеризації підгрупп у кластерних групах. Останній тест ґрунтується на порівнянні (використовуючи аналізи "найближчого сусіда" для підрахунку статистичних даних) з контрольною сукупністю, яка в поточному контексті може базуватися на фактичних спостережуваних цілях, класифікованих як не відображаючи кластеризацію, або на теоретичному моделюванні, з скажімо, розподіл Релея

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.