Кількісне визначення подібності між двома наборами даних


12

Резюме : Намагаючись знайти найкращий метод, підсумовуйте схожість між двома вирівняними наборами даних, використовуючи одне значення.

Деталі :

Моє питання найкраще пояснити діаграмою. На графіках, наведених нижче, показано два різних набори даних, на кожному з яких позначено значення nfта nr. Точки вздовж осі x представляють місце проведення вимірювань, а значення на осі у - отримане вимірюване значення.

Для кожного графіка я хочу, щоб одне число підсумовувало схожість nfта nrзначення у кожній точці вимірювання. У цьому прикладі візуально очевидно, що результати в перших графах менш схожі на результати другого графіка. Але у мене є маса інших даних, де різниця менш очевидна, тому допомога в кількісному рейтингу була б корисною.

Я думав, що може бути стандартна техніка, яка зазвичай використовується. Пошук статистичної подібності дав безліч різних результатів, але я не впевнений, що краще вибрати, або якщо речі, які я готовий, стосуються моєї проблеми. Тому я подумав, що це питання може бути варто задати тут, якщо є проста відповідь.

введіть тут опис зображення


1
Ви можете поглянути на цей документ, який містить безліч перелічених заходів. ( users.uom.gr/~kouiruki/sung.pdf ) Якщо посилання не працює, його під назвою "Комплексне опитування про відстань / заходи подібності між функціями ймовірності ймовірності" Сунг-Хюк Ча в Міжнародному журналі математичних моделей і методів в "Прикладна наука", в якій розглядається безліч заходів подібності.
arie64

Динамічний викривлення часу використовується для вимірювання подібності двох часових рядів. Цей прийом може виконати завдання тут. Перевірте це посилання: en.wikipedia.org/wiki/Dynamic_time_warping
Аман Ананд

Відповіді:


6

Площа між 2 кривими може призвести до різниці. Звідси сума (nr-nf) (сума всіх різниць) буде наближенням площі між 2 кривими. Якщо ви хочете зробити його відносним, можна використовувати суму (nr-nf) / sum (nf). Це дасть вам одне значення, що вказує на схожість між 2 кривими для кожного графіка.

Редагувати: Вищенаведений метод суми різниць буде корисним, навіть якщо це окремі точки або спостереження, а не з'єднані лінії чи криві, але в цьому випадку середнє значення різниць може також бути показником і може бути кращим, оскільки воно враховувало б кількість спостережень.


1
Я спробую це і побачу, як це працює. Я все ще сподіваюся, що зможу відновити це до більш формалізованої техніки. Я читав про Евклідову відстань і, здається, це досить схоже на техніку тут. Крім того, як додаткова примітка, навіть якщо мій графік має сполучні лінії, я дбаю лише про окремі точки. Я не дуже порівнюю криві, просто виміряні значення. Я не знаю, чи було це ясно в моєму запитанні.
Габріель Південний

Він повинен працювати, навіть якщо точки не з'єднані.
rnso

1

Вам потрібно більше визначити, що ви маєте на увазі під «подібністю». Чи має значення величина? Або лише форма?

Якщо важлива лише форма, ви хочете нормалізувати обидва часові ряди за їх максимальним значенням (тому вони обидва від 0 до 1).

Якщо ви шукаєте лінійну кореляцію, просте співвідношення груш може працювати нормально - що по суті вимірює коваріацію.

Наприклад, існують інші методи, які можуть відповідати лінії або поліному часовому ряду (по суті згладжуючи його), а потім порівнювати гладкі многочлени.

Якщо ви шукаєте періодичну схожість (тобто часовий ряд має певну синусоїдальну складову або сезонність), подумайте про використання розкладу часових рядів у тренді, а компоненти сезону спочатку. Або використовувати щось на зразок FFT для порівняння даних у частотній області.

То про все, що я знаю, без більш чіткого визначення того, що має бути «подібне». Сподіваюся, це допомагає.


0

Ви можете використовувати (nr-nf) для кожної точки вимірювання, чим менше число (абсолютне значення), тим більше подібне значення. Не зовсім науковий підхід, вибачте, будь ласка, у мене немає справжньої формальної підготовки з цього матеріалу. Якщо ви просто шукаєте числове зображення візуального, це потрібно зробити.


1
Дякуємо за вашу пропозицію. Я теж думав про це, але проблема полягає в тому, що вона буде зважена абсолютною різницею, а не відносною різницею. У прикладі я включив більш подібні набори даних також мали менші абсолютні значення, але якщо ситуація була зворотна, ви можете отримати неправильну інтерпретацію за допомогою цієї методики. Мені потрібно підсумувати відносну схожість / різницю, а не абсолютну різницю.
Габріель Південний

Чи буде (nr-nf) / nf працювати? Це дозволило б вам родича. Мені дуже цікаво бачити справжню відповідь, оскільки я сам маю справу з такою ж ситуацією.
Майк Г

Якщо вони всі на порівняльній шкалі, то факт, що подібні у вас, як правило, нижчі, не стосується відносних значень, а тлумачення подібності. Якби значення у другому графіку варіювали від 101-104, чи змінило б їх інтерпретацію подібності? Якщо так, то вам потрібно пояснити це. Більше інформації про те, що саме y-змінна є необхідною.
Джон

@John, це хороший момент. Гадаю, мені потрібно більше подумати над цим. Значення на y - це значення швидкості для еталону, і я намагаюся порівняти подібність між різними конфігураціями. Тож я здогадуюсь, що пропозиція у цій відповіді може спрацювати, я б спробував це просто побачити, як виглядають цифри. Я все-таки вважаю за краще використовувати статистичну техніку, яка є більш офіційно прийнятою (якщо така є для моєї проблеми).
Габріель Південний
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.