Запитання з тегом «binary-data»

Двійкова змінна приймає одне з двох значень, як правило, кодується як "0" і "1".

1
Яка інтуїція за обмінними зразками під нульовою гіпотезою?
Перестановочні тести (також називаються тестом рандомизації, тестом на повторну рандомізацію або точним тестом) дуже корисні і корисні, коли припущення про нормальний розподіл, необхідне, наприклад, t-testне виконується, і при перетворенні значень за ранжуванням непараметричний тест, як-от Mann-Whitney-U-test, призведе до втрати більше інформації. Однак одне і єдине припущення не слід оминути увагою …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

5
Як здійснити однокласну класифікацію тексту?
Я маю справу з проблемою класифікації тексту. Веб-сканер сканує веб-сторінки певного домену, і для кожної веб-сторінки я хочу з’ясувати, належить вона лише одному певному класу чи ні. Тобто, якщо я називаю цей клас Позитивним , кожна сканована веб-сторінка належить або до класу Позитивний, або до класу Непозитивний . У мене …

1
Шукаємо крок на прикладі факторного аналізу на дихотомічні дані (бінарні змінні) за допомогою R
У мене є деякі дихотомічні дані, лише бінарні змінні, і мій начальник попросив мене провести факторний аналіз, використовуючи матрицю тетрахоричних кореляцій. Раніше я міг навчити себе виконувати різні аналізи на підставі прикладів тут та на статистичному сайті UCLA та інших подібних сайтах, але я не можу знайти крок через приклад …

1
Варіантне розділення та поздовжні зміни кореляції з бінарними даними
Я аналізую дані про 300 000 учнів у 175 школах за допомогою логістичної лінійної моделі змішаних ефектів (випадкові перехоплення). Кожна зіниця виникає рівно один раз, і дані охоплюють 6 років. Як я можу розрізняти різницю між рівнями школи та учнів, аналогічно VPC / ICC для постійних результатів? Я бачив цю …


2
Чи існує пакет R для безперервних подовжених бінарних відповідей?
bildПакет , здається, чудовий пакет для послідовних бінарних відповідей. Але це для дискретного часу. Я хотів би вказати плавну функцію часу для з'єднання співвідношення шансів поточної відповіді Y з двійковими відповідями, виміряними в більш ранні часи, або, принаймні, першою черговою версією Маркова. Я вважаю, що це називається чергуванням логістичної регресії. …

1
ЛАРС проти координатного спуску для ласо
Які плюси та мінуси використання LARS [1] проти використання координатного спуску для встановлення L1-регульованої лінійної регресії? Мене в основному цікавлять аспекти ефективності (мої проблеми мають, як правило, Nсотні тисяч і p<20). Однак, будь-які інші дані також будуть оцінені. редагувати: Оскільки я розмістив запитання, chl люб'язно вказав на статтю [2] Friedman …

2
Як вибрати оптимальну ширину бункера при калібруванні ймовірних моделей?
Передумови: Тут є кілька чудових питань / відповідей щодо того, як відкалібрувати моделі, які прогнозують ймовірність того, що результат відбудеться. Наприклад Шкала барію та його розкладання на роздільну здатність, невизначеність та надійність . Калібрувальні графіки та ізотонічна регресія . Ці методи часто вимагають використання методу бінінгу за передбачуваними ймовірностями, так …

4
Прогнозування двійкових часових рядів
У мене є двійковий часовий ряд з 1, коли машина не рухається, і 0, коли машина рухається. Я хочу зробити прогноз на часовий горизонт до 36 годин вперед і на кожну годину. Першим моїм підходом було використання Naive Bayes, використовуючи такі входи: t-24 (щоденний сезон), t-48 (сезонний тиждень), година дня. …

2
оптимізація auc vs logloss в проблемах бінарної класифікації
Я виконую завдання бінарної класифікації, коли ймовірність результату є досить низькою (близько 3%). Я намагаюся вирішити, чи оптимізувати AUC чи втрату журналу. Наскільки я зрозумів, AUC максимізує здатність моделі розрізняти класи, в той час як logloss карає розбіжність між фактичними та оціненими ймовірностями. У моєму завданні надзвичайно важливо відточити точність …


3
Як я можу перевірити, чи є моє кластеризація двійкових даних значним
Я роблю аналізи кошиків, мої набори даних - це набір векторів транзакцій, з предметами, які купуються товари. Застосовуючи k-засоби у транзакціях, я завжди отримуватиму певний результат. Випадкова матриця, ймовірно, також відображатиме деякі кластери. Чи є спосіб перевірити, чи є я кластеризація значущою, чи це, можливо, може бути збігом обставин. Якщо …

4
Логістична регресія та перегин
У нас є дані з бінарним результатом і деякими коваріатами. Я використовував логістичну регресію для моделювання даних. Просто простий аналіз, нічого надзвичайного. Кінцевим результатом має бути крива доза-відповідь, де ми показуємо, як змінюється ймовірність для конкретного коваріату. Щось на зразок цього: Ми отримали певну критику від внутрішнього рецензента (не чистого …

1
R / mgcv: Чому тензорні вироби te () і ti () створюють різні поверхні?
У mgcvпакеті Rє дві функції для встановлення тензорних взаємодій між продуктами: te()і ti(). Я розумію основний розподіл праці між двома (встановлення нелінійної взаємодії проти декомпозиції цієї взаємодії на основні ефекти та взаємодію). Чого я не розумію, це чому te(x1, x2)і ti(x1) + ti(x2) + ti(x1, x2)може давати (трохи) різні результати. …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

3
Який алгоритм я повинен використовувати для кластеризації величезного бінарного набору даних у декілька категорій?
У мене є велика (650 К рядків * 62 стовпчики) матриця двійкових даних (лише 0-1 записи). Матриця переважно розріджена: заповнено близько 8%. Я хотів би класифікувати його в 5 груп - скажімо, названі від 1 до 5. Я спробував ієрархічну кластеризацію, і вона не змогла впоратися з розміром. Я також …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.