Запитання з тегом «categorical-data»

Категоричні (також їх називають номінальними) дані можуть приймати обмежену кількість можливих значень, званих категоріями. Категоричні значення "мітка", вони не "вимірюють". Будь ласка, використовуйте тег [ordinal-data] для дискретних, але упорядкованих типів даних.

3
Проблеми з кодуванням із гарячим кодом та фіктивним кодуванням
Мені відомо про той факт, що категоричні змінні з k рівнями повинні бути кодовані змінними k-1 у фіктивній кодування (аналогічно для багатозначних категоріальних змінних). Мені було цікаво, якою проблемою є однокольорове кодування (тобто замість цього k змінних) через кодове кодування для різних методів регресії, в основному лінійної регресії, пеналізованої лінійної …

5
Чому варто уникати binning за будь-яку ціну?
Тому я прочитав кілька дописів про те, чому слід уникати binning завжди . Популярна посилання на цю заяву - це посилання . Головне, що точки поповнення (або точки відрізку) є досить довільними, а також втрата інформації, що виникає, і що слід віддати перевагу сплайнам. Однак зараз я працюю з API …

1
Які небезпеки обчислення Пірсонових кореляцій (замість тетрахорних) для бінарних змінних у факторному аналізі?
Я займаюся дослідженнями навчальних ігор, і деякі мої поточні проекти передбачають використання даних BoardGameGeek (BGG) та VideoGameGeek (VGG) для вивчення взаємозв'язків між елементами дизайну ігор (тобто, "встановлених у Другій світовій війні", "включає кочення" ) та рейтинги гравців у цих іграх (тобто бали з 10). Кожен з цих елементів дизайну відповідає …

3
Чому слід здійснювати трансформацію категорійних предикторів ВОЕ в логістичній регресії?
Коли корисна трансформація категорійних змінних ваги доказів (WOE)? Приклад можна побачити в трансформації WOE (Отже, для відповіді , і категоричного прогноктора з категоріями, і успіхів з випробувань в рамках ї категорії цього WOE для ї категорії визначається якyyykkkyjyjy_jnjnjn_jjjjjjj logyj∑kjyj∑kj(nj−yj)nj−yjlog⁡yj∑jkyj∑jk(nj−yj)nj−yj\log \frac{y_j} {\sum_j^k {y_j}} \frac{\sum_j^k (n_j-y_j)}{n_j-y_j} & перетворення складається з кодування кожної …

4
Як називається ця схема
Хтось може мені сказати, як називається цей тип діаграм (якщо вони є)? Чи може хто-небудь запропонувати будь-які інструменти, як би просто не було, побудувати таку діаграму?

2
Чи слід справді вважати типи даних (номінальний / порядковий / інтервал / відношення) типами змінних?
Ось, наприклад, ось визначення, які я отримую із стандартних підручників Змінна - характеристика популяції чи вибірки. колишній Ціна акції або сорт на тест Дані - фактичні спостережувані значення Отже, для звіту з двох стовпців [Назва | Дохід] назви стовпців будуть змінними та фактичними спостережуваними значеннями {dave | 100K}, {jim | …

1
Як інтерпретувати тест Кокрана-Мантеля-Хаенцеля?
Я перевіряю незалежність двох змінних, A і B, стратифікованих C. A і B є бінарними змінними, а C - категоричними (5 значень). Здійснюючи точний тест Фішера на А і В (всі страти разом), я отримую: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: …

1
Як я можу включити інноваційний зовнішній вигляд під спостереження 48 у свою модель ARIMA?
Я працюю над набором даних. Після використання деяких методів ідентифікації моделі я вийшов із моделлю ARIMA (0,2,1). Я використав detectIOфункцію в пакеті TSAв R, щоб виявити інноваційний зовнішній вигляд (IO) під час 48-го спостереження за моїм оригінальним набором даних. Як я включу цей зовнішній вигляд у свою модель, щоб я …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
Мультиноміальна-Діріхле модель з гіперприорним розподілом за параметрами концентрації
Я спробую описати проблему якнайбільше загальної. Я моделюю спостереження як категоричне розподіл з параметром тети вектора ймовірності. Тоді я припускаю, що тета вектора параметрів слідує за попереднім розподілом Діріхле з параметрами .α1, α2, … , Αкα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k Чи можливо тоді також накласти гіперприорний розподіл за параметрами ? Чи повинен це бути …

2
Чи мультиколінеарність неявна категоричним змінним?
Я зауважив, що повозився з багатоваріантною регресійною моделлю, був невеликий, але помітний ефект мультиколінеарності, виміряний коефіцієнтами дисперсії, в межах категорії категоріальної змінної (звичайно, виключаючи референтну категорію). Наприклад, скажімо, у нас є набір даних із суцільною змінною y та однією номінальною категоріальною змінною x, яка має k можливих взаємовиключних значень. Ми …

2
Кореляція між дихотомічною та безперервною змінною
Я намагаюся знайти співвідношення між дихотомічною та суцільною змінною. З моєї основної роботи з цього питання я виявив, що я повинен використовувати незалежний t-тест, і передумовою цього є те, що розподіл змінної має бути нормальним. Я провів тест Колмогорова-Смірнова для перевірки нормальності і виявив, що суцільна змінна є ненормальною і …

3
Як поводитися з небінарними категоричними змінними в логістичній регресії (SPSS)
Мені доводиться робити бінарну логістичну регресію з безліччю незалежних змінних. Більшість з них є бінарними, але деякі категоричні змінні мають більше двох рівнів. Який найкращий спосіб боротися з такими змінними? Наприклад, для змінної з трьома можливими значеннями я припускаю, що потрібно створити дві фіктивні змінні. Тоді, в процесі поетапної регресії, …

2
Чи можна безпосередньо читати стовпці CSV як категоричні дані?
Мені потрібно проаналізувати з R дані з медичного обстеження (зі 100+ кодованими стовпцями), що надходять у CSV. Я використаю брязкальця для початкового аналізу, але за кадром все-таки R. Якщо я читаю файл.csv () , то стовпці з числовими кодами розглядаються як числові дані. Я знаю, що міг би створити з …

4
Як статистично довести, чи стовпець має категоричні дані чи не використовує Python
У мене є фрейм даних в python, де мені потрібно знайти всі категоричні змінні. Перевірка типу стовпця не завжди працює, тому що intтип може бути також категоричним. Тож я шукаю допомоги у пошуку правильного методу тестування гіпотез, щоб визначити, категорія категорія чи ні. Я пробував нижче тесту чи-квадрата, але не …

1
Пеніалізовані методи категоричних даних: поєднання рівнів у факторі
Пеналізовані моделі можна використовувати для оцінки моделей, де кількість параметрів дорівнює або навіть перевищує розмір вибірки. Така ситуація може виникнути в лінійних журнальних моделях великих розріджених таблиць категоричних даних або даних про кількість. У цих налаштуваннях часто також бажано або корисно згортання таблиць шляхом комбінування рівнів фактора, коли ці рівні …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.