Запитання з тегом «metric»

Метрика - це функція, яка видає відстань між двома елементами набору і відповідає певним строгим критеріям (деякі функції "відстань" не є метрикою).

8
Чому евклідова відстань не є хорошою метрикою у великих розмірах?
Я читав, що «Евклідова відстань - це не дуже добра відстань у великих розмірах». Я думаю, це твердження має щось спільне з прокляттям розмірності, але що саме? Крім того, що таке "високі розміри"? Я застосовував ієрархічну кластеризацію за допомогою евклідової відстані зі 100 ознаками. На скільки функцій безпечно використовувати цей …

6
Відсоток областей перекриття двох нормальних розподілів
Мені було цікаво, враховуючи два звичайних розподілу з таσ1, μ1σ1, μ1\sigma_1,\ \mu_1σ2, μ2σ2, μ2\sigma_2, \ \mu_2 як я можу обчислити відсоток перекриваються областей двох розподілів? Я думаю, ця проблема має конкретну назву, чи знаєте ви якесь конкретне ім’я, що описує цю проблему? Чи знаєте ви про будь-яку реалізацію цього (наприклад, …

4
Нагадаємо та точність у класифікації
Я читаю деякі визначення відкликання та точності, хоча це щоразу в контексті пошуку інформації. Мені було цікаво, чи може хтось пояснити це трохи більше в контексті класифікації та, можливо, проілюструвати деякі приклади. Скажімо, наприклад, у мене є двійковий класифікатор, який дає мені точність 60% і відкликання 95%, це хороший класифікатор? …

1
Обчислювальна повторюваність ефектів від lmer-моделі
Я щойно натрапив на цю статтю , в якій описано, як обчислити повторюваність (він же - надійність, також внутрішньокласова кореляція) вимірювання за допомогою моделювання змішаних ефектів. R-код буде: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

3
Які переваги метрики Wasserstein порівняно з розбіжністю Куллбека-Лейблера?
Яка практична різниця між Wasserstein метрикою і Кульбакою-Лейблером дивергенцией ? Метрику Вассерстейна також називають відстань руху Землі . З Вікіпедії: Метрика Вассерстейна (або Васерштейна) - це відстань, яка визначається між розподілами ймовірностей на заданому метричному просторі М. і Дивергенція Куллбека – Лейблера - це міра того, як один розподіл ймовірностей …

5
Як контролювати витрати на помилкову класифікацію у випадкових лісах?
Чи можна контролювати вартість помилкової класифікації в пакеті R randomForest ? У моїй власній роботі хибні негативи (наприклад, помилки, що у людини може бути захворювання) набагато дорожчі, ніж помилкові позитиви. Пакет rpart дозволяє користувачеві контролювати витрати на помилкову класифікацію, визначаючи матрицю втрат, щоб по-різному визначити неправильні класифікації. Чи існує щось …

2
Порівняння кластеризації: Індекс Rand та Варіації інформації
Мені було цікаво, чи хтось мав уявлення чи інтуїцію за різницею між варіацією інформації та індексом Rand для порівняння кластерів. Я прочитала документ " Порівняння кластерів - відстань, заснована на інформації " Марини Меліа (Journal of Multivariate Analysis, 2007), але, окрім зауваження різниці у визначеннях, я не розумію, що це …


2
Дивергенція Дженсена Шеннона проти дивергенції Куллбека-Лейблера?
Я знаю, що Дивергенція KL не є симетричною і її не можна чітко розглядати як метрику. Якщо так, то чому він використовується, коли JS Divergence задовольняє необхідні властивості для метрики? Чи існують сценарії, коли можна використовувати дивергенцію KL, але не JS Divergence чи навпаки?

4
Чи існує відстань ймовірності, яка зберігає всі властивості метрики?
Вивчаючи відстань Кульбека - Лейблера, ми дізнаємось дуже швидко дві речі: це те, що вона не поважає ані трикутної нерівності, ані симетрії, необхідних властивостей метрики. Моє запитання - чи є якась метрика функцій щільності ймовірності, яка б відповідала всім обмеженням метрики .

4
Чи виконується нерівність трикутника для цих відстаней на основі кореляції?
Для ієрархічної кластеризації я часто бачу наступні дві "метрики" (вони точно не говорять) для вимірювання відстані між двома випадковими змінними і : \ newcommand {\ Cor} {\ mathrm {Cor}} \ begin {align} d_1 (X, Y) & = 1- | \ Cor (X, Y) |, \\ d_2 (X, Y) & = …

2
Показники коваріаційних матриць: недоліки та сильні сторони
Які "найкращі" показники для матриць коваріації та чому? Мені зрозуміло, що Frobenius & c не підходять, і параметризації кутів також мають свої проблеми. Інтуїтивно можна отримати компроміс між цими двома, але я також хотів би знати, чи є інші аспекти, які слід пам’ятати і, можливо, добре встановлені стандарти. Загальні показники …

1
Формування формули інерції в науці
Я хотів би кодувати kmeans, що кластеруються в python, використовуючи панди та scikit learn. Для того, щоб вибрати хороший k, я хотів би зашифрувати статистику прогалини від Tibshirani та ін 2001 ( pdf ). Мені хотілося б знати, чи можу я використати результат inertia_ від scikit і адаптувати статистичну формулу …

2
Чи повинна відстань бути "метрикою", щоб ієрархічна кластеризація була дійсною на ній?
Скажімо, що ми визначаємо відстань, яка не є метрикою , між N елементами. На основі цієї відстані ми використовуємо агломераційну ієрархічну кластеризацію . Чи можемо ми використовувати кожен з відомих алгоритмів (одинарне / максимум / авангардний зв’язок тощо), щоб отримати значущі результати? Або по-іншому, в чому проблема їх використання, якщо …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.