Запитання з тегом «distance»

Вимірювання відстані між розподілами чи змінними, наприклад, евклідова відстань між точками в n-просторі.

9
Знизу вгорі пояснення відстані махаланобіса?
Я вивчаю розпізнавання образів і статистику, і майже кожна книга, яку я відкриваю на тему, натрапляю на концепцію відстані махаланобіса . Книги дають свого роду інтуїтивні пояснення, але все ще недостатньо хороші для мене, щоб насправді зрозуміти, що відбувається. Якби хтось запитав мене: "Яка відстань махаланобіса?" Я могла відповісти лише: …

3
Приклад: регресія LASSO з використанням glmnet для двійкового результату
Я починаю балуватися з використанням glmnetз LASSO регресією , де мій результат становить інтерес дихотомический. Я створив невеликий макетний кадр даних нижче: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
Інтуїція щодо розбіжності Куллбека-Лейблера (KL)
Я дізнався про інтуїцію, що лежить в основі KL Divergence, наскільки функція розподілу моделі відрізняється від теоретичного / правдивого розподілу даних. Джерело Читаю продовжує говорити про те , що інтуїтивне розуміння «відстаней» між цими двома розподілами є корисним, але не слід сприймати буквально , тому що для двох розподілів і …

2
Вибір правильного методу зв'язку для ієрархічної кластеризації
Я здійснюю ієрархічну кластеризацію даних, які я зібрав і обробив з дампу даних Reddit в Google BigQuery. Мій процес такий: Отримайте останні 1000 публікацій в / r / polit Зберіть всі коментарі Обробляти дані та обчислювати n x mматрицю даних (n: користувачі / зразки, m: повідомлення / функції) Обчисліть матрицю …

1
Перетворення матриці подібності в матрицю відстані (евклідова)
У алгоритмі випадкових лісів Брейман (автор) будує матрицю подібності таким чином: Надсилайте всі приклади навчання вниз по кожному дереву в лісі Якщо два приклади приземляються в один приріст листя, відповідний елемент у матриці подібності на 1 Нормалізуйте матрицю з кількістю дерев Він каже: Близькість між випадками n і k утворює …


1
Чи можна тест Мантеля поширити на асиметричні матриці?
Тест Мантеля зазвичай застосовується для симетричних матриць відстані / різниці. Наскільки я розумію, припущення тесту полягає в тому, що міра, яка використовується для визначення різниць, повинна бути принаймні напівметричною (відповідати стандартним вимогам метрики, а не нерівності трикутника). Чи можна припущення про симетрію послабити (даючи попередню метрику)? Чи можливо застосувати тест …

1
Використання кореляції як метрики відстані (для ієрархічної кластеризації)
Я хотів би ієрархічно кластеризувати свої дані, але замість того, щоб використовувати евклідову відстань, я хотів би використовувати кореляцію. Крім того, оскільки коефіцієнт кореляції коливається від -1 до 1, причому як -1, так і 1 позначають "співрегуляцію" в моєму дослідженні, я розглядаю як -1, так і 1 як d = …

8
Виконайте K-засоби (або його близькі споріднення), кластеризуючи лише матрицю відстані, а не дані по характеристиках
Я хочу виконати кластеризацію K-засобів на об'єктах, які у мене є, але об'єкти не описуються як точки в просторі, тобто за objects x featuresнабором даних. Однак я в змозі обчислити відстань між будь-якими двома об’єктами (воно засноване на функції подібності). Отже, я розпоряджаюсь матрицею відстані objects x objects. Я раніше …

3
Розподіл різниці між двома нормальними розподілами
У мене є дві функції щільності ймовірності нормальних розподілів: f1(x1|μ1,σ1)=1σ12π−−√e−(x−μ1)22σ21f1(x1|μ1,σ1)=1σ12πe−(x−μ1)22σ12f_1(x_1 \; | \; \mu_1, \sigma_1) = \frac{1}{\sigma_1\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_1)^2}{2\sigma_1^2} } і f2(x2|μ2,σ2)=1σ22π−−√e−(x−μ2)22σ22f2(x2|μ2,σ2)=1σ22πe−(x−μ2)22σ22f_2(x_2 \; | \; \mu_2, \sigma_2) = \frac{1}{\sigma_2\sqrt{2\pi} } \; e^{ -\frac{(x-\mu_2)^2}{2\sigma_2^2} } Я шукаю функцію щільності ймовірності поділу між та . Я думаю, це означає, що …

4
Чому змішані дані є проблемою для алгоритмів кластеризації на основі евкліда?
Більшість класичних алгоритмів кластеризації та зменшення розмірності (ієрархічна кластеризація, аналіз основних компонентів, k-засоби, самоорганізуючі карти ...) розроблені спеціально для числових даних, а їх вхідні дані розглядаються як точки в евклідовому просторі. Це, звичайно, проблема, оскільки в багатьох реальних питаннях пов'язані змішані дані: наприклад, якщо ми вивчаємо автобуси, висота і довжина …

1
Зв'язок між дисперсією та попарними відстанями в межах змінної
Будь ласка, доведіть, що якщо у нас є дві змінні (однаковий розмір вибірки) і і дисперсія в більша, ніж у , то сума квадратних різниць (тобто квадратних евклідових відстаней) між точками даних у межах також більша, ніж що в .XXXYYYXXXYYYXXXYYY

9
Порядкові відстані махаланобіса
Мені потрібно обчислити вибірку відстані махаланобіса в R між кожною парою спостережень в матриці коваріатів . Мені потрібно рішення , яке є ефективним, тобто тільки відстані обчислюються, і переважно реалізовані в C / RCpp / Fortran і т.д. Я вважаю , що , матриця коваріації населення, невідомий і використовувати зразок …
18 r  algorithms  distance 

3
Розрахуйте різницю Куллбека-Лейблера на практиці?
Я використовую KL Розбіжність в якості запобіжного несходства між 2 і .P Qp . м . f.p.м.f.p.m.f. ППPQQQ =-∑P(Xi)ln(Q(Xi))+∑P(Xi)ln(P(Xi))DКL( С|| Q)= ∑i = 1Nln( СiQi) ПiDКL(П||Q)=∑i=1Nln⁡(ПiQi)ПiD_{KL}(P||Q) = \sum_{i=1}^N \ln \left( \frac{P_i}{Q_i} \right) P_i = - ∑ Р( Xi) l n ( Q ( X)i) ) + ∑ Р( Xi) l …

3
Яке максимальне значення розбіжності Kullback-Leibler (KL)
Я буду використовувати розбіжність KL в коді python, і я отримав цей підручник . У цьому підручнику реалізувати розбіжність KL досить просто. kl = (model * np.log(model/actual)).sum() Як я розумію, розподіл ймовірностей modelі actualповинен бути <= 1. Моє запитання, яке максимальне обмежене / максимально можливе значення k ?. Мені потрібно …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.