Запитання з тегом «binary-data»

Двійкова змінна приймає одне з двох значень, як правило, кодується як "0" і "1".

9
Вимірювання ентропії / інформації / моделей 2d бінарної матриці
Я хочу виміряти ентропію / щільність інформації / подібність малюнка двовимірної двійкової матриці. Дозвольте показати кілька зображень для уточнення: Цей дисплей повинен мати досить високу ентропію: А) Це має мати середню ентропію: Б) Нарешті, ці зображення повинні мати ентропію майже нуля: C) Г) Е) Чи є якийсь індекс, який фіксує …

6
Двійкова класифікація з сильно незбалансованими класами
У мене є набір даних у вигляді (функції, двійковий вихід 0 або 1), але 1 трапляється досить рідко, тому просто передбачуючи 0, я отримую точність між 70% і 90% (залежно від конкретних даних, на які я дивлюся ). Методи МЛ дають мені приблизно таку саму точність, і я вважаю, що …

4
Поріг ймовірності класифікації
У мене взагалі питання щодо класифікації. Нехай f - класифікатор, який виводить набір ймовірностей, заданих деякими даними D. Зазвичай, можна сказати: добре, якщо P (c | D)> 0,5, ми призначимо клас 1, інакше 0 (нехай це буде двійковий класифікація). Моє запитання полягає в тому, що якщо я дізнаюся, що якщо …


3
Чи може PCA працювати для булевих (бінарних) типів даних?
Я хочу зменшити розмірність систем вищого порядку і захопити більшу частину коваріації на переважно двовимірне або 1 мірне поле. Я розумію, що це можна зробити за допомогою аналізу основних компонентів, і я використовував PCA у багатьох сценаріях. Однак я ніколи не використовував його з булевими типами даних, і мені було …

1
Робота аналізу основних компонентів або факторного аналізу на двійкові дані
У мене є набір даних з великою кількістю відповідей Так / Ні. Чи можна використовувати основні компоненти (PCA) або будь-який інший аналіз зменшення даних (наприклад, факторний аналіз) для цього типу даних? Підкажіть, будь ласка, як мені це робити за допомогою SPSS.

1
Чи є факторний аналіз або PCA для порядкових або двійкових даних?
Я завершив аналіз основних компонентів (PCA), дослідницький факторний аналіз (EFA) та підтверджуючий факторний аналіз (CFA), обробляючи дані за шкалою Likert (5-рівневі відповіді: немає, мало, деякі, ..) як безперервний змінна. Потім, використовуючи Lavaan, я повторив CFA, визначаючи змінні як категоричні. Мені хотілося б знати, які типи аналізів підходили б і були …

2
Як використовувати як бінарні, так і безперервні змінні разом у кластеризації?
Мені потрібно використовувати бінарні змінні (значення 0 і 1) у k-значенні. Але k-означає працює лише з безперервними змінними. Я знаю, що деякі люди до цих пір використовують ці бінарні змінні в k-значенні, ігноруючи той факт, що k-засоби призначені лише для суцільних змінних. Це для мене неприйнятно. Запитання: То який статистично …

7
Чому, наприклад, стать зазвичай кодується 0/1, а не 1/2?
Я розумію логіку кодування для аналізу даних. Моє запитання нижче стосується використання певного коду. Чи є причина, чому стать часто кодується як 0 для жіночої та 1 для чоловічої? Чому це кодування вважається "стандартним"? Порівняйте це з Жіноча = 1 та Чоловіча = 2. Чи є проблема з цим кодуванням?

5
Чи варто коли-небудь стандартизувати двійкові змінні?
У мене є набір даних із набором функцій. Деякі з них є двійковими активний або звільнений, неактивний або спокійний), а решта оцінюються реально, наприклад .(1=(1=(1=0=0=0=4564.3424564.3424564.342 Я хочу подати ці дані в алгоритм машинного навчання, тому я -знаходжу всі реально оцінені функції. Я отримую їх приблизно від до . Тепер двійкові …

3
Візуалізація калібрування передбачуваної ймовірності моделі
Припустимо, у мене є прогнозована модель, яка створює для кожного примірника ймовірність для кожного класу. Тепер я визнаю, що існує багато способів оцінити таку модель, якщо я хочу використовувати ці ймовірності для класифікації (точність, відкликання тощо). Я також усвідомлюю, що крива ROC та площа під нею можна використовувати для визначення …

3
Створення випадкових корельованих даних між бінарною та суцільною змінною
Я хочу генерувати дві змінні. Один - бінарний змінний результат (скажімо, успіх / невдача), а другий - вік у роках. Я хочу, щоб вік позитивно співвідносився з успіхом. Наприклад, має бути більше успіхів у старших вікових сегментах, ніж у нижчих. В ідеалі я повинен бути в змозі контролювати ступінь кореляції. …

2
Кластеризація двійкової матриці
У мене є напівмаленька матриця двійкових ознак розміром 250k x 100. Кожен рядок - це користувач, а стовпці - це двійкові "теги" деякої поведінки користувача, наприклад "like_cats". user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 …

2
Коефіцієнти подібності двійкових даних: Чому вибирають Жакарда над Расселом та Рао?
З Енциклопедії статистичних наук я розумію, що за даними дихотомічних (бінарних: 1 = присутній; 0 = відсутніх) атрибутів (змінних) ми можемо сформувати таблицю непередбачених ситуацій для будь-яких двох об'єктів i та j вибірки:ppp j 1 0 ------- 1 | a | b | i ------- 0 | c | d …

4
Точність машини для підвищення градієнта зменшується зі збільшенням кількості ітерацій
Я експериментую з алгоритмом машини для підвищення градієнта через caretпакет в Р. Використовуючи невеликий набір даних про вступ до коледжу, я застосував такий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.