Запитання з тегом «gini»

Коефіцієнт Джині використовується для вимірювання нерівності доходів та дискримінаційної сили класифікатора. Якщо у всіх однакові доходи, коефіцієнт Джині = 0. Якщо одна людина має всі доходи, коефіцієнт Джині = 1. Усі інші значення знаходяться десь посередині.

2
Який взаємозв'язок між оцінкою GINI та коефіцієнтом ймовірності ймовірності
Я вивчаю класифікаційні та регресійні дерева, і одним із заходів щодо місця розбиття є оцінка GINI. Зараз я звик визначати найкраще розділене місце, коли журнал коефіцієнта ймовірності одних і тих же даних між двома розподілами дорівнює нулю, тобто ймовірність членства однаково вірогідна. Моя інтуїція говорить про те, що повинен бути …

1
Чи використовує випадковий ліс Бреймана посилення інформації або індекс Джині?
Мені хотілося б знати, чи використовує випадковий ліс Бреймана (випадковий ліс у пакеті R randomForest) як критерій розщеплення (критерій вибору атрибутів) посилення інформації або індекс Джині? Я спробував це знайти на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm та в документації для пакету randomForest в R. Але єдине, що я знайшов - це те, що індекс …

1
logloss vs gini / auc
Я навчив дві моделі (двійкові класифікатори, використовуючи h2o AutoML), і хочу вибрати одну для використання. У мене є такі результати: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 і aucі loglossстовпці - це показники крос-валідації (для перехресної …

1
Чому в якості оцінки використовувати нормований показник Джині замість AUC?
Конкуренція Kaggle Безпечний прогноз водія Porto Seguro використовує нормований показник Джині в якості метрики оцінювання, і це мене зацікавило причин такого вибору. Які переваги використання нормалізованої оцінки джині замість найбільш звичайних показників, таких як AUC, для оцінки?

1
Чим відрізняється інтерпретація кривої GINI від AUC?
ми використовували для створення кривої GINI, використовуючи ліфт, створений за допомогою відсотка хорошого та поганого для моделювання показників. Але те, що я вивчив, крива ROC створюється за допомогою матриці плутанини зі специфічністю (1- вірно негативним) як вісь x, а чутливість (справжній позитивний) як вісь Y. Таким чином, результат GINI і …
13 roc  gini 

3
Різниця - це підсумкова статистика: коефіцієнт Джині та стандартне відхилення
Існує кілька підсумкових статистичних даних. Якщо ви хочете описати поширення розподілу, ви можете використовувати, наприклад, стандартне відхилення або коефіцієнт Джині . Я знаю, що стандартне відхилення базується на центральній тенденції, тобто відхиленні від середнього, а коефіцієнт Джині - загальному вимірюванні дисперсії. Я також знаю, що коефіцієнт Джіні має нижню і …

4
Намагаєтеся обчислити індекс Джині для розподілу репутації StackOverflow?
Я намагаюся обчислити індекс Джині для розподілу репутації SO за допомогою SO Data Explorer. Рівняння, яке я намагаюся реалізувати, таке: Де: = кількість користувачів на сайті; = серійний ідентифікатор користувача (1 - 1,225,000); = репутація користувача .niyiiГ ( S) = 1n - 1( n + 1 - 2 ( ∑нi …
11 gini 

1
Коефіцієнт Джині та межі помилок
У мене є часовий ряд даних з N = 14 підрахунків у кожний момент часу, і я хочу обчислити коефіцієнт Джіні та стандартну помилку для цієї оцінки в кожний момент часу. Так як у мене є лише N = 14 підрахунків у кожній точці часу, я продовжував обчислення дисперсії джек-ножа, …

5
Як виміряти дисперсію в даних про частоту слова?
Як я можу оцінити кількість дисперсії у векторі лічильників слів? Я шукаю статистику, яка буде високою для документа А, оскільки вона містить багато різних слів, які трапляються нечасто, і низькі для документа B, оскільки вони містять одне слово (або кілька слів), які трапляються часто. Більш загально, як можна виміряти дисперсію …

1
Як порівняти спостережувані та очікувані події?
Припустимо, у мене є один зразок частоти 4 можливих подій: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 і я маю очікувані ймовірності моїх подій: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 За допомогою суми спостережуваних частот моїх чотирьох подій (18) …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.