2D аналог стандартного відхилення?


19

Розглянемо наступний експеримент: групі людей надається список міст та просять позначити відповідні місця на (інакше не маркованій) карті світу. Для кожного міста ви отримаєте розсіювання точок, орієнтовно орієнтованих у відповідному місті. Деякі міста, скажімо, Стамбул, демонструватимуть менше розсіювання, ніж інші, скажуть Москва.

Припустимо, що для даного міста ми отримуємо набір двовимірних зразків {(хi,уi)} , що представляють (х,у) положення міста (наприклад, в локальній системі координат) на карті, заданій тестом предмет i . Я хотів би виразити кількість "дисперсії" точок у цій множині як єдине число у відповідних одиницях (км).

Для проблеми 1D я вибрав би стандартне відхилення, але чи є 2D аналог, який можна було б розумно вибрати для описаної вище ситуації?


робиш завоювання?
RockScience

Я додав, що приклад просторового тегу явно просторовий. Якщо ви (або хтось інший) відчуваєте, що це зайве, не соромтеся відкотити це додаток.
Andy W

Відповіді:


12

Одне, що можна використати, - це вимірювання відстані від центральної точки, , наприклад, середнє значення вибірки точок ( ¯ x , ¯ y ) або, можливо, центроїд спостережуваних точок. Тоді мірою дисперсії буде середня відстань від цієї центральної точки:c=(c1,c2)(x¯,y¯)

1ni=1n||zic||

де . Існує багато можливих варіантів вимірювання відстані, але норма L 2 (наприклад, евклідова відстань) може бути розумним вибором:zi={xi,yi}L2

||zic||=(xic1)2+(yic2)2

Однак є багато інших можливих варіантів. Дивіться http://en.wikipedia.org/wiki/Norm_%28mathematics%29


Хоча відстань буде нульовою, це дійсно дивний вибір, оскільки вона не погоджується у виродженому випадку зі звичайним стандартним відхиленням в одному вимірі. Тому розглянемо натомість . zi-c2
Алекс Р.

6

Хорошим посиланням на метрики просторового розподілу точкових шаблонів є посібник « Зрозуміло» (зокрема, це питання цікавить розділ 4 ). Подібно до запропонованого макросу метрики, Стандартне відхилення відстані схоже на 2D-стандартне відхилення (різниця полягає лише в тому, що ви ділите на "n-2", а не "n" у першій формулі, яку макрос дав).

Ваш приклад експерименту насправді нагадує мені трохи про те, як дослідження оцінюють географічне профілювання злочинців , і тому показники, використані в цих роботах, можуть представляти інтерес. Зокрема, терміни точність та точність використовуються досить небагато і були б доречними для дослідження. Угадки можуть мати невелике стандартне відхилення (тобто точне), але все ще мають дуже низьку точність.


1

Я думаю, вам слід використовувати «відстань махаланобіса», а не норми евклідової відстані, оскільки вона враховує кореляцію набору даних і є «інваріантною за шкалою». Ось посилання:

http://en.wikipedia.org/wiki/Mahalanobis_distance

Ви також можете використовувати "Половину простору". Це трохи складніше, але має багато привабливих властивостей. Глибина напівпростору (також відома як глибина розташування) заданої точки відносно набору даних P - мінімальна кількість точок P, що лежать у будь-якій закритій півплощині, визначеній лінією через a. Ось посилання:

http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf


1
Я розумію, використовуючи відстані махаланобіса, коли ви намагаєтесь сказати, чи певні точки "належать" до множини, але чи не середня евклідова відстань від центральної точки зору більш тісно пов'язана зі звичайною концепцією дисперсії / стандартного відхилення, яка використовується в універсальна установка?
Макрос

2
Чи проти зауважувати висловлювання "враховує співвідношення даних" та "чи є інваріантним масштаб"? Яке значення має будь-яка з цих речей у питанні?
Енді Ш

Звичайне розширення стандартного відхилення на більш високий розмір - це, звичайно, спосіб обчислити відстань певної точки від центру даних - але тут ми нормалізуємо кожну точку, що полегшує виконання кластерного аналізу або виявлення зовнішньої форми. Також відстань махаланобіса є більш пристосованою до випадків, коли розподіл точок несферичний. Для сферично симетричних випадків це те саме, що звичайне розширене стандартне відхилення - де матриця коваріації точок даних зводиться до матриці тотожності.
VitalStatistix

1

Я фактично зіткнувся з подібною проблемою недавно. Здається, ви хочете, щоб визначити, наскільки добре точки розсіяні по площі. Звичайно, для даного вимірювання вам доведеться усвідомити, що якщо всі точки знаходяться по прямій, відповідь - нульова, оскільки немає двовимірного різноманіття.

З розрахунків, які я зробив, ось що я придумав:

SххSуу-Sху²

У цьому випадку Sxx і Syy є дисперсіями x і y відповідно, тоді як Sxy є свого роду подібно до змішаної дисперсії x і y.

хмкумк

Sхх=1нi=1н(х-хмк)²
Sуу=1нi=1н(у-умк)²
Sху=1нi=1н(х-хмк)(у-умк)

Сподіваємось, це має працювати для вас.

Крім того, якщо вам цікаво, як це зробити в більш високих розмірах, наприклад, вимірювання розкиду обсягу або об'єм суртерону в 4 вимірах, ви повинні сформувати подібну матрицю:

Sxx Sxy Sxz ...

Syx Syy Syz ...

Szx Szy Szz ...

... ... ... ...

І продовжуйте, скільки завгодно необхідних вимірів. Ви повинні мати можливість з'ясувати значення S, надані вище наведеними визначеннями, але для різних змінних.

Після того, як матриця буде сформована, візьміть визначник, знайдіть квадратний корінь, і ви закінчите.


0

Для цього конкретного прикладу - де є заздалегідь визначена "правильна" відповідь - я б переробив координати x / y на полярні координати навколо міста, про яке вони просили позначити на карті. Тоді вимірюється точність відносно радіальної складової (середнє значення, sd тощо). "Середній кут" також може бути використаний для вимірювання зміщення.

Для себе я все ще шукаю хороше рішення, коли немає заздалегідь визначеної центральної точки, і мені не подобається ідея попереднього переходу даних для створення центроїда.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.