Стандартне відхилення декількох вимірювань з невизначеностями


13

У мене є дві 2 години GPS даних зі швидкістю вибірки 1 Гц (7200 вимірювань). Дані наведені у вигляді , де - невизначеність вимірювання.N σ(X,Xσ,Y,Yσ,Z,Zσ)Nσ

Коли я беру середнє значення всіх вимірювань (наприклад, середнє значення Z за ці дві години), яке його стандартне відхилення? Я, звичайно, можу розрахувати стандартне відхилення від значень Z, але тоді я нехтую тим фактом, що відомі вимірювальні невизначеності ...

Редагувати: дані є з однієї станції, і всі координати переглядаються щосекунди. Через супутникові сузір'я тощо, кожне вимірювання має різну невизначеність. Мета мого аналізу - знайти зрушення внаслідок зовнішньої події (тобто землетрусу). Я хотів би взяти середнє значення для 7200 вимірювань (2 год) перед землетрусом, а інше - за 2 год після землетрусу, а потім обчислити отриману різницю (наприклад, по висоті). Для того, щоб уточнити стандартне відхилення цієї різниці, мені потрібно знати стандартне відхилення двох засобів.


3
Гарне питання. Ще важливіше, що дані будуть сильно позитивно співвіднесені з часом: це матиме більш глибокий вплив на відповідь, ніж коливання вимірювальних невизначеностей.
whuber

Підбираючи коментар Уубера та відповідь Deathkill14, ви не дали нам достатньо інформації, щоб відповісти належним чином. Важливо знати, як "працюють" помилки в вимірюванніНаприклад, якщо помилка вимірювання була позитивною за 3 секунди, вона більше / менше ймовірна для 4 секунд --- тобто чи є послідовна кореляція? По-друге, якщо помилка в була позитивною за 3 секунди, це більше / менше ймовірність помилки в та / або бути додатною через 3 секунди? За 2 секунди? За 4 секунди? X,Y,ZXXYZ
Білл

Пов'язане з дещо іншим питанням таке: наскільки систематична помилка вимірювання? Припустимо , я сказав : «Так, вимірювалася трохи високо на моїй галявині перед будинком. є майже завжди вимірюється трохи високо на моїй галявині перед будинком.» Це було б шалене твердження? Чи працює помилка вимірювання таким чином, що певне місце може бути дуже часто занадто високим, тоді як інше місце може бути дуже часто занадто низьким і т. Д. "Або все помилка минуща?XX
Білл

@Bill: Однозначно є послідовна кореляція. Помилки вимірювання майже постійні протягом двох годин. Однак вони, як правило, більше, ніж стандартна девітація, обчислена за даними, що привело мене до цього питання.
traindriver

У вашому запитанні все ще не чітко прописано наявність послідовного співвідношення. На жаль, у вас є три ретельно складені відповіді, які вам не так корисні, як могли б.
Glen_b -Встановити Моніку

Відповіді:


7

Я підозрюю, що попередні відповіді на це питання можуть бути трохи поза оцінкою. Мені здається, що те, що насправді тут задають оригінальний плакат, можна перефразувати як "з урахуванням серії векторних вимірювань: з , і коваріація вимірювання :

θi=(XiYiZi)
i=1,2,3,...,7200
Ci=(Xσ,i2000Yσ,i2000Zσ,i2)
як би я правильно обчислив коефіцієнт зваженого значення для коваріації для цієї серії векторних вимірювань, а потім, як я правильно розрахував його стандартне відхилення? "Відповідь на це питання можна знайти у багатьох підручниках, що спеціалізуються на статистиці фізичних наук Одним із прикладів, який мені подобається, зокрема, є Фредерік Джеймс, "Статистичні методи в експериментальній фізиці" , 2-е видання, World Scientific, 2006, розділ 11.5.2, "Об'єднання незалежних оцінок", стор 323-324. Ще один дуже хороший, але Більш вступний текст рівня, який описує середньозважене середньозважене обчислення для скалярних значень (на відміну від повних векторних величин, як це представлено вище) - Філіп Р. Бевінгтон та Д. Кіт Робінсон, "Зменшення даних та аналіз помилок для фізичних наук ", 3-е видання, McGraw-Hill, 2003, розділ 4.1.x, "Зважування даних - неоднорідні невизначеності". Оскільки у записі афіші трапилася діагоналізована коваріаційна матриця в цьому випадку (тобто всі позадіагональні елементи дорівнюють нулю), проблема насправді розділяється на три індивідуальні (тобто X, Y, Z) скалярні середньозважені задачі, тому аналіз Бевінгтона та Робінсона також однаково добре застосовується і тут.

Взагалі, відповідаючи на запитання stackexchange.com, зазвичай не вважаю корисним перепаковувати довгі виводи, які вже були представлені в численних підручниках - якщо ви хочете по-справжньому зрозуміти матеріал та зрозуміти, чому відповіді виглядають на Як вони це роблять, то вам дійсно слід просто піти і прочитати пояснення, які вже були опубліковані авторами підручника. Зважаючи на це, я просто перейду безпосередньо до повторного викладу відповідей, які вже надали інші. Від Фредеріка Джеймса, встановивши , середньозважене значення: і коефіцієнт зваженого середнього значення:N=7200

θmean=(i=1NCi1)1(i=1NCi1θi)
Cmean=(i=1NCi1)1
Ця відповідь є повністю загальною і буде дійсною незалежно від того, що форму , навіть для недіагональних коваріаційних матриць вимірювання.Ci

Оскільки так трапляється, що коваріації вимірювань є діагональними в цьому конкретному випадку, аналіз Бевінгтона та Робінсона також може бути використаний для обчислення середньозважених засобів для окремих , та . Форма скалярної відповіді подібна до форми векторної відповіді: а дисперсія - або рівнозначно, і аналогічноXiYiZi

Xmean=i=1NXiXσ,i2i=1N1Xσ,i2
Xσ,mean2=1i=1N1Xσ,i2
Xσ,mean=1i=1N1Xσ,i2
Ymean,Yσ,meanі . Короткий запис у Вікіпедії, який також відповідає цій самій відповіді для скалярного випадку, доступний тут .Zmean,Zσ,mean

Можливо, мені було трохи незрозуміло, тому я додав ще трохи інформації. Я не думаю, що мені потрібно зважувати свої вимірювання.
traindriver

1
Так ти зробиш. Розглянемо крайній випадок, як мислительний експеримент: припустимо, у вас є лише 2 вимірювання GPS замість 7200. Припустимо також, що один з вимірювань GPS має невизначеність +/- 5 футів, а інший має невизначеність + / - 5 миль. Число невизначеності буквально говорить про те, наскільки потенційно неточним є вимірювання. Це означає, що значення +/- 5 миль, ймовірно, буде за кілька миль, принаймні. Ви справді хочете якось змістовно включити це число до свого середнього? Зважене усереднення дозволяє знижувати значення, яким не варто довіряти.
stachyra

1
До речі, у моїй відповіді є інша річ: у своєму початковому дописі ви згадуєте, що причина, коли ви не хочете просто використовувати вибіркове стандартне відхилення, обчислене безпосередньо від значень Z, полягає в тому, що в цьому випадку ви б, власними словами, "нехтуйте тим фактом, що відомі вимірювальні невизначеності". Моя відповідь (ну, насправді, незрозуміла відповідь підручника, якою я просто ділюсь з вами) використовує відомі вимірювання невизначеності, точно так, як ви просили. Просто він використовує інформацію в більшій кількості місць (середній результат та стандартне відхилення), ніж ви очікували.
stachyra

Ви мене переконали.
traindriver

6

Це слід легко вирішити, використовуючи байєсівські умовиводи. Ви знаєте вимірювальні властивості окремих точок відносно їх справжнього значення і хочете зробити висновок про середнє значення сукупності та SD, що генерувало справжні значення. Це ієрархічна модель.

Перефразування проблеми (основи Байєса)

Зауважте, що тоді як ортодоксальна статистика дає вам єдине середнє значення, в байесівських рамках ви отримуєте розподіл достовірних значень середнього. Наприклад, спостереження (1, 2, 3) із SD (2, 2, 3) могли бути сформовані за максимальною оцінкою ймовірності 2, але також у середньому 2,1 або 1,8, хоча дещо рідше (за даними) ПЛЮС. Отже, крім SD, ми також підводимо середнє значення .

Ще одна концептуальна відмінність полягає в тому, що ви повинні визначити свій рівень знань, перш ніж робити спостереження. Ми називаємо це пріорами . Ви можете заздалегідь знати, що певна ділянка була відсканована і в певному діапазоні висоти. Повна відсутність знань полягала б у тому, щоб мати рівномірний (-90, 90) градусів як попередній у X та Y, а може бути і рівномірний (0, 10000) метрів по висоті (над океаном, під найвищою точкою на землі). Ви повинні визначити розподілення пріорів для всіх параметрів, які ви хочете оцінити, тобто отримати задні розподіли . Це справедливо і для стандартного відхилення.

Отже, перефразовуючи свою проблему, я припускаю, що ви хочете зробити висновок про достовірні значення для трьох засобів (X.mean, Y.mean, X.mean) та трьох стандартних відхилень (X.sd, Y.sd, X.sd), які можуть мати генерував ваші дані.

Модель

Використовуючи стандартний синтаксис BUGS (використовуйте WinBUGS, OpenBUGS, JAGS, stan або інші пакети для запуску цього), ваша модель виглядатиме приблизно так:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Природно, ви стежите за параметрами .mean і .sd і використовуєте їх афіші для висновку.

Моделювання

Я імітував такі дані, як:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Потім запустили модель, використовуючи JAGS для 2000 ітерацій після спалаху 500 ітерацій. Ось результат для X.sd.

задній для X.sd

Синій діапазон вказує на 95% найвищої задньої щільності або достовірного інтервалу (де ви вважаєте, що параметр є після спостереження за даними. Зауважте, що православний інтервал довіри вам цього не дає).

Червона вертикальна лінія є оцінкою MLE для вихідних даних. Зазвичай так буває, що найвірогідніший параметр за байєсівською оцінкою - це також найбільш вірогідний (максимальна ймовірність) параметр в ортодоксальній статистиці. Але вам не слід надто піклуватися про верхню частину задньої частини. Середнє значення або медіана краще, якщо ви хочете звести їх до єдиного числа.

Зауважте, що MLE / top не на 5, тому що дані були генеровані випадковим чином, а не через неправильну статистику.

Обмеження

Це проста модель, яка наразі має кілька вад.

  1. Він не обробляє ідентичність -90 і 90 градусів. Це, однак, можна зробити, зробивши деяку проміжну змінну, яка зміщує крайні значення оцінюваних параметрів у діапазон (-90, 90).
  2. X, Y і Z в даний час моделюються як незалежні, хоча вони, ймовірно, співвідносяться, і це слід враховувати, щоб отримати максимальну користь від даних. Це залежить від того, рухався вимірювальний пристрій (послідовна кореляція та спільний розподіл X, Y і Z дасть вам багато інформації) чи стоять нерухомо (незалежність в порядку). Я можу розширити відповідь, щоб підійти до цього, якщо вимагаю.

Я мушу зазначити, що є багато літератури про просторові байєсівські моделі, про які я не знаю.


Дякую за цю відповідь. Це дані з фіксованої станції, але чи означає це, що дані незалежні?
traindriver

@traindriver Вам потрібно надати додаткову інформацію про проблему, з якою ви стикаєтесь, щоб ми допомогли вам. Ви можете розширити своє запитання за допомогою розділу "оновлення" із зазначенням принаймні (1) чи це та сама кількість, яка вимірюється повторно? Тобто однакову координату. Або сканується область або ... (2) чому ви хочете зробити висновок про середнє значення та sd? Якщо це область, можливо, ви хочете використовувати SD як оцінку ощадливості чи щось подібне.
Jonas Lindeløv

Я додав ще трохи інформації в оригінальний пост.
traindriver

3

Я спершу ввожу деякі позначення і встановлюю проблему, використовуючи простий підхід, який ви згадали. Тоді йдіть далі. Я буду використовувати для позначення даного вами вектора Z.z

Розглянемо наступну модель, в якій відсутня явна помилка вимірювання: , де - середнє оцінене значення , а - справжнє середнє значення Z. Тут - вектор помилок у ваших даних, і ви очікуєте, що якщо ваш зразок великий перейде до . Якщо ви просто візьмете спостережувані значення і середнє їх значення, ви отримаєте а якщо обчислити вибіркове стандартне відхилення, ви отримаєте , оцінку справжнього стандартного відхилення сукупностіZ¯=i=1nμZ+ϵinZ¯zμZϵZ¯μZZZ¯σ^σ . Що робити, якщо ви хочете скористатися деякими знаннями про помилку вимірювання?

z=1β+ϵ1βZ¯μZϵz

z=1β+Qu+ϵuQzuuZσz? Якщо так, це можна використовувати для розподілу випадкових ефектів. Як правило, програмне забезпечення для моделювання базових змішаних ефектів передбачає, що випадкові ефекти мають нормальний розподіл (із середнім значенням 0 ...) і оцінить дисперсію для вас. Можливо, ви можете спробувати це для тестування концепції. Якщо ви бажаєте скористатися вашою попередньою інформацією про розподіл похибки вимірювання, в порядку баєсової моделі змішаних ефектів. Ви можете використовувати R2OpenBUGS.

Оцінивши цю модель, стандартна помилка, яку ви отримуєте для залишків - це стандартна помилка, до якої ви виражаєте інтерес. помилка. Це дозволяє отримати більш релевантну оцінку варіаціїϵϵ

Дивіться цей документ для більш глибокого обговорення такого підходу випадкових ефектів для обліку помилок вимірювання. Ваша ситуація схожа на ситуацію, яку вводять автори для і її помилка вимірювання пошкоджена версія . Приклад у Розділі 4 може запропонувати деякі розуміння вашої ситуації.DW

Як згадує whuber, можливо, ви захочете врахувати автокореляцію у своїх даних. Використання випадкових ефектів не вирішить цю проблему.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.