Запитання з тегом «binning»

Бінінг означає групування безперервної змінної в дискретні категорії. Він особливо використовується для посилань на гістограми, але також може бути використаний більш загально у сенсі грубості.

4
Оцінка приблизного розподілу даних на основі гістограми
Припустимо, я хочу перевірити, чи мої дані експоненціальні на основі гістограми (тобто перекошені праворуч). Залежно від того, як я групую або обробляю дані, я можу отримати різко різні гістограми. Один набір гістограм зробить здається, що дані експоненціальні. З іншого набору буде здаватися, що дані не є експоненціальними. Як зробити чітко …

7
Яка користь від розриву суцільної змінної предиктора?
Мені цікаво, яке значення має взяття суцільної змінної предиктора та розбиття його (наприклад, на квінтили), перш ніж використовувати його в моделі. Мені здається, що, поширюючи змінну, ми втрачаємо інформацію. Це просто так, щоб ми могли моделювати нелінійні ефекти? Якби ми зберігали змінну безперервною, і це насправді не було прямим лінійним …

3
Переваги використання QQ-графіків над гістограмами
У цьому коментарі Нік Кокс написав: Об’єднання в класи - це древній метод. Незважаючи на те, що гістограми можуть бути корисними, сучасне статистичне програмне забезпечення дозволяє легко, а також доцільно пристосувати розподіли до вихідних даних. Binning просто викидає деталі, які є вирішальними при визначенні того, які розподіли правдоподібні. Контекст цього …

2
Коли ми повинні дискретизувати / бін безперервні незалежні змінні / функції, а коли не слід?
Коли ми повинні дискретизувати / бін незалежні змінні / функції, а коли не слід? Мої спроби відповісти на питання: Взагалі, ми не повинні бініти, оскільки бінінг втратить інформацію. Бінінг насправді збільшує ступінь свободи моделі, тому можливе сприятливе пристосування після бінінгу. Якщо у нас є модель "з великим ухилом", бінінг може …

2
Вплив меж відрізків на основі даних на тест на корисність чи-квадрата?
Залишаючи осторонь очевидну проблему низької потужності квадратика у таких обставинах, уявіть, що ви зробите тест корисності чі-квадрата на деяку щільність з невстановленими параметрами, порівнюючи дані. Для конкретності, скажімо, експоненціальний розподіл з невідомим середнім і розміром вибірки, наприклад, 100. Для отримання розумної кількості очікуваних спостережень за кошик потрібно брати до уваги …

3
Найкращий спосіб поставити дві гістограми в одному масштабі?
Скажімо, у мене є два розподіли, які я хочу детально порівняти, тобто таким чином, щоб форма, масштаб і зсув були легко видимими. Один з хороших способів зробити це - побудувати гістограму для кожного розподілу, помістити їх у ту саму шкалу X і скласти одну під іншу. Як це робити, як …

2
Оптимальне підключення відносно заданої змінної відповіді
Я шукаю оптимальний метод бінінгу (дискретизація) безперервної змінної щодо заданої відповіді (цільової) бінарної змінної та з максимальною кількістю інтервалів як параметр. Приклад: У мене є набір спостережень за людьми зі змінними "висота" (число безперервно) та "has_back_pains" (бінарні). Я хочу розрізнити висоту на 3 інтервали (групи) максимум з різною часткою людей …

5
Інтерпретація теореми Байєса, застосована до позитивних результатів мамографії
Я намагаюся обернути голову навколо результату теореми Байєса, застосованого до прикладу класичної мамографії, при цьому поворот мамографії є ​​ідеальним. Це є, Захворюваність на рак:.01.01.01 Ймовірність позитивної мамографії, якщо пацієнт має рак:111 Ймовірність позитивної мамографії, якщо пацієнт не має раку:.01.01.01 Байєс: P (рак | мамограма +) =1⋅.01(1⋅.01)+(.091⋅.99)1⋅.01(1⋅.01)+(.091⋅.99)\dfrac {1 \cdot .01}{(1 \cdot …

2
Як "розумно" скласти колекцію відсортованих даних?
Я намагаюся інтелектуально зібрати впорядковану колекцію. У мене є збірка з яти даних. Але я знаю, що ці дані вписуються в нерівномірних розмірів. Я не знаю, як розумно вибрати кінцеві точки, щоб правильно підходити до даних. наприклад:nnnmmm Скажімо, у моїй колекції 12 предметів, і я знаю, що дані вмістяться в …

5
Чому варто уникати binning за будь-яку ціну?
Тому я прочитав кілька дописів про те, чому слід уникати binning завжди . Популярна посилання на цю заяву - це посилання . Головне, що точки поповнення (або точки відрізку) є досить довільними, а також втрата інформації, що виникає, і що слід віддати перевагу сплайнам. Однак зараз я працюю з API …

2
Кількість бункерів при обчисленні взаємної інформації
Я хочу оцінити співвідношення між двома змінними, A і B, використовуючи взаємну інформацію. Спосіб її обчислення - це бінінг спостережень (див. Приклад Python-коду нижче). Однак які фактори визначають, яка кількість бункерів є розумною? Мені потрібно, щоб обчислення були швидкими, тому я не можу просто використовувати багато бункерів, щоб бути на …

1
R лінійна регресія, категоріальна змінна значення «приховане»
Це лише приклад, на який я зустрічався кілька разів, тому у мене немає даних про вибірку. Запуск лінійної регресійної моделі в R: a.lm = lm(Y ~ x1 + x2) x1є суцільною змінною. x2категоричний і має три значення, наприклад "Низький", "Середній" та "Високий". Однак вихід, отриманий R, був би на кшталт: …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Формула Доуна для бінінгу гістограми
Я реалізую різні алгоритми, щоб оцінити найкращу кількість бункерів, які слід використовувати для гістограм. Більшість із тих, що я реалізую, описані на сторінці "Гістограма" у Вікіпедії у розділі " Кількість відрізків та ширина " *. Я застряг у проблемі з формулою Доана: 1 + log(n) + log(1 + kurtosis(data) * …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.