Як обчислити міру точності на основі RMSE? Мій великий набір даних зазвичай розподіляється?


9

У мене є кілька наборів даних в порядку тисячі балів. Значення у кожному наборі даних - X, Y, Z, що стосуються координати в просторі. Значення Z являє собою різницю висот у парі координат (x, y).

Зазвичай в моєму полі ГІС на похибку висоти посилається в RMSE шляхом віднімання точки земної істини до точки вимірювання (точка даних LiDAR). Зазвичай використовується як мінімум 20 контрольно-пропускних пунктів заземлення. Використовуючи це значення RMSE, згідно з NDEP (National Digital Elevation Guidelines) та керівництвом FEMA, можна визначити міру точності: Точність = 1,96 * RMSE.

Ця точність вказана як: "Фундаментальна вертикальна точність - це значення, за допомогою якого вертикальну точність можна справедливо оцінити та порівняти між наборами даних. Фундаментальна точність обчислюється на 95-відсотковому рівні довіри як функція вертикальної RMSE."

Я розумію, що 95% площі під нормальною кривою розподілу лежить в межах 1,96 * стд. Відхилення, однак це не стосується RMSE.

Як правило, я задаю це питання: Використовуючи обчислені RMSE з 2-х наборів даних, як я можу пов'язати RMSE з якоюсь точністю (тобто 95 відсотків моїх точок даних знаходяться в межах +/- X см)? Крім того, як я можу визначити, чи мій набір даних зазвичай розподіляється за допомогою тесту, який добре працює з таким великим набором даних? Що "достатньо добре" для нормального розподілу? Чи повинен p <0,05 для всіх тестів, чи він повинен відповідати формі нормального розподілу?


Я знайшов дуже гарну інформацію на цю тему в наступному документі:

http://paulzandbergen.com/PUBLICATIONS_files/Zandbergen_TGIS_2008.pdf


4
Стережись! Використання ks.test невірно. Відповідно до сторінки довідки , вам потрібно використовувати "pnorm" замість "dnorm". Більше того, встановлення параметрів розподілу порівняння на середнє значення та SD самого зразка істотно завищить p-значення: "Якщо використовується тест для одного зразка, параметри, зазначені в ..., повинні бути заздалегідь задані, а не оцінюватися з дані."
whuber

3
Ну, насправді, ця формула не дасть вам довірчого інтервалу: вона буде для цього занадто великою. Це дійсно непростий (але стандартний) спосіб оцінити інтервал допуску, який становить середину 95% всієї сукупності відмінностей. Є вагомі причини вважати, що відмінності не матимуть нормального розподілу: більші абсолютні відмінності, як правило, пов'язані з більшими топографічними нахилами. Якщо припустити, що ваші 4000 балів є випадковою вибіркою цих відмінностей, чому б вам просто не повідомити їх 2,5 та 97,5 відсотків?
whuber

4
Ваші дані формують статистичний зразок висот, які можна було виміряти. Коли ви говорите про "точність", ви пред'являєте претензії щодо того, наскільки тісно ваші DEM представляють всю сукупність височин. У вашому випадку неможливо оцінити точність, порівнюючи набори даних: ви повинні "поле-правда" свої дані. Таким чином, вказівки дійсно говорять про відносну згоду двох наборів даних. Нарешті, їх використання "рівня довіри" є помилковим, як я пояснював раніше. Я приймаю, що ви повинні працювати в рамках таких жахливих вказівок, але ви заслуговуєте на те, щоб знати, що правильно.
whuber

3
Це починає здаватися корисним для вас питанням. Оскільки ви ще не отримали жодної відповіді, чому б вам просто не відредагувати поточне запитання, щоб включити інформацію, яку ви розкрили в цих коментарях? Я б запропонував її трохи розширити: після цитування вказівок (щоб показати, які методи зазвичай застосовуються у вашій галузі), ви можете запитати досить загально, як використовувати розподіл упорядкованих пар різниць висот для оцінки точності (якщо припустити один набору даних є посиланням).
whuber

2
Усі: Оновлено мою головну публікацію та питання, щоб відобразити зміни в коментарях.
Матвій Більскі

Відповіді:


1

Використовуючи RMSE, обчислену з 2-х наборів даних, як я можу співвідносити RMSE з якоюсь точністю (тобто 95 відсотків моїх даних даних знаходяться в межах +/- X см)?

Погляньте на майже повторне запитання: Інтервал довіри RMSE ?

Мій великий набір даних зазвичай розподіляється?

Хорошим початком було б спостерігати за емпіричним розподілом zцінностей. Ось відтворюваний приклад.

set.seed(1)
z <- rnorm(2000,2,3)
z.difference <- data.frame(z=z)

library(ggplot2)

ggplot(z.difference,aes(x=z)) + 
  geom_histogram(binwidth=1,aes(y=..density..), fill="white", color="black") +
  ylab("Density") + xlab("Elevation differences (meters)") +
  theme_bw() + 
  coord_flip()

введіть тут опис зображення

На перший погляд це виглядає нормально, правда? (насправді ми знаємо, що це нормально, оскільки rnormкоманда, яку ми використовували).

Якщо ви хочете проаналізувати невеликі зразки на наборі даних, є тест на нормальність Shapiro-Wilk.

z_sample <- sample(z.difference$z,40,replace=T)
shapiro.test(z_sample) #high p-value indicates the data is normal (null hypothesis)

    Shapiro-Wilk normality test

data:  z_sample
W = 0.98618, p-value = 0.8984 #normal

Можна також багато разів повторити тест SW на різних невеликих зразках, а потім переглянути розподіл p-values.

Майте на увазі, що тести на нормальність для великих наборів даних не настільки корисні, як це пояснено у цій відповіді, наданій Грегом Сноу.

З іншого боку, при дійсно великих наборах даних центральна гранична теорема вступає в дію і для загальних аналізів (регресія, t-тести, ...) вам дійсно все одно, чи нормально розподіляється чисельність населення чи ні.

Хорошим правилом є зробити qq-графік і запитати, чи достатньо це нормально?

Отже, давайте зробимо QQ-графік:

#qq-plot (quantiles from empirical distribution - quantiles from theoretical distribution)
mean_z <- mean(z.difference$z)
sd_z <- sd(z.difference$z)
set.seed(77)
normal <- rnorm(length(z.difference$z), mean = mean_z, sd = sd_z)

qqplot(normal, z.difference$z, xlab="Theoretical", ylab="Empirical")

введіть тут опис зображення

Якщо точки вирівняні по y=xлінії, це означає, що емпіричний розподіл відповідає теоретичному розподілу, що в даному випадку є нормальним розподілом.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.