Запитання з тегом «distance-functions»

Функції дистанції відносяться до функцій, що використовуються для кількісного визначення поняття відстані між членами набору або між об'єктами.

8
Чому евклідова відстань не є хорошою метрикою у великих розмірах?
Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей …

6
Вибір методу кластеризації
Використовуючи кластерний аналіз на наборі даних для групування подібних випадків, потрібно вибрати серед великої кількості методів кластеризації та міри відстані. Іноді один вибір може впливати на інший, але існує безліч можливих комбінацій методів. Хтось має якісь рекомендації щодо вибору серед різних алгоритмів / методів кластеризації та дистанційних заходів ? Як …

6
Чому алгоритм кластеризації k-означає використовує тільки евклідову метрику відстані?
Чи є конкретна мета з точки зору ефективності чи функціональності, чому алгоритм k-засобів не використовує, наприклад, подібність косинуса (dis) як метрику відстані, а може використовувати лише евклідову норму? Загалом, чи відповідає метод К-засобів та чи буде правильним, якщо розглядаються чи використовуються інші відстані, ніж Евклідова? [Доповнення від @ttnphns. Питання двозначне. …

3
Який розподіл евклідової відстані між двома нормально розподіленими випадковими змінними?
Припустимо, вам дано два об'єкти, точні місця яких невідомі, але розподілені відповідно до звичайних розподілів із відомими параметрами (наприклад, та . Можна припустити, що це обидві біваріантні нормали, так що положення описуються розподілом по координатам (тобто і - вектори, що містять очікувані координати для і відповідно). Ми також будемо вважати, …

2
Кульбек – Лейблер проти дистанції Колмогоров-Смірнов
Я можу бачити, що між відстаніми мірами Кульбека – Лейблера проти Колмогорова-Смірнова відстані між великими формальними відмінностями. Однак обидва використовуються для вимірювання відстані між розподілами. Чи є типова ситуація, коли одну слід використовувати замість іншої? Що обґрунтовує це?

2
Ієрархічна кластеризація даних змішаного типу - яку відстань / схожість використовувати?
У моєму наборі даних є як безперервні, так і природно дискретні змінні. Я хочу знати, чи можемо ми робити ієрархічну кластеризацію, використовуючи обидва типи змінних. І якщо так, то яка міра відстані підходить?

1
Порівняння ієрархічної кластеризації дендрограм, отриманих різними відстанями та методами
[Початкова назва "Вимірювання подібності для ієрархічних дерев кластеризації" згодом @ttnphns змінила, щоб краще відобразити тему] Я виконую ряд ієрархічних кластерних аналізів у кадрі даних пацієнтів (наприклад, подібний до http://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) Я експериментую з різними мірами відстані , різною вагою параметрів та різними ієрархічними методами , щоб зрозуміти їх вплив на …

5
Вимірювання "відстані" між двома багатоваріантними розподілами
Я шукаю хорошу термінологію, щоб описати те, що намагаюся зробити, щоб полегшити пошук ресурсів. Скажімо, у мене є два кластери точок A і B, кожне пов'язане з двома значеннями, X і Y, і я хочу виміряти "відстань" між A і B - тобто наскільки ймовірним є те, що вони були …

2
Чи є неупереджений оцінювач відстані Хеллінгера між двома розподілами?
В умовах , коли спостерігається X1,…,XnX1,…,XnX_1,\ldots,X_n розподілено з розподілу з щільністю fff , цікаво , якщо є несмещенная оцінка (на основі «ов) відстаней Хеллінгера до іншого розподілу з щільністюXiXiX_if0f0f_0 , а саме H(f,f0)={1−∫Xf(x)f0(x)−−−−−−−−√dx}1/2.H(f,f0)={1−∫Xf(x)f0(x)dx}1/2. \mathfrak{H}(f,f_0) = \left\{ 1 - \int_\mathcal{X} \sqrt{f(x)f_0(x)} \text{d}x \right\}^{1/2}\,.

1
Коли використовувати зважену евклідову відстань і як визначити ваги, які слід використовувати?
У мене є набір даних, де кожна інформація складається з ннn різних заходів. Для кожного заходу у мене є базове значення. Мені хотілося б знати, наскільки близькі дані для базового значення. Я думав використовувати зважену евклідову відстань так: гх , б= ( ∑нi = 1шi( хi- бi)2) )1 / 2гх,б=(∑i=1ншi(хi-бi)2))1/2\hspace{0.5in} …

3
Чи нормально використовувати відстань на Манхеттені з міжкластерним зв'язком Варда в ієрархічній кластеризації?
Я використовую ієрархічну кластеризацію для аналізу даних часових рядів. Мій код реалізований з використанням Mathematica функції DirectAgglomerate[...], яка генерує ієрархічні кластери отримують наступні входи: матриця відстані D назва методу, що використовується для визначення міжкластерної зв'язку. Я обчислив матрицю відстані D, використовуючи відстань на Манхеттені: г( х , у) = ∑i|хi- …

1
Кластеризація: Чи слід використовувати розбіжність Дженсена-Шеннона або його квадрат?
Я кластеризую розподіл ймовірностей, використовуючи алгоритм розповсюдження афінності , і я планую використовувати дивергенцію Дженсена-Шеннона як мій показник відстані. Чи правильно використовувати JSD як відстань, або JSD у квадраті? Чому? Які відмінності випливали б із вибору того чи іншого?

3
або показники для кластеризації?
Є чи хто - небудь використовувати в або метрики для кластеризації, а не ? Aggarwal та ін., Про дивовижну поведінку метрики відстані у просторі з високими розмірами говорили (у 2001 р.), ЩоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 послідовно більш кращий, ніж евклідова метрика відстані для застосувань для розміщення даних з високими розмірамиL2L2L_2 і стверджував, …

3
Евклідова відстань та схожість
Я просто працюю з книгою «Колективний інтелект» (Тобі Сегаран) і натрапив на евклідову оцінку дистанції. У книзі автор показує, як обчислити схожість між двома рекомендаційними масивами (тобто .людина × фільм ↦ бал )person×movie↦score)\textrm{person} \times \textrm{movie} \mapsto \textrm{score}) Він обчислює евклідову відстань для двох осіб і p 2 по d ( …

1
Відмінності між PROC змішаними та lme / lmer у R - ступенями свободи
Примітка: це запитання є репостом, оскільки моє попереднє питання довелося видалити з юридичних причин. Порівнюючи PROC MIXED від SAS з функцією lmeз nlmeпакету в R, я натрапив на деякі досить заплутані відмінності. Більш конкретно, ступеня свободи в різних випробувань відрізняються між PROC MIXEDі lme, і я задавався питанням, чому. Почніть …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.