Запитання з тегом «categorical-data»

Категоричні дані можуть приймати обмежену (зазвичай фіксовану) кількість можливих значень, які називаються категоріями. Категоричні значення "мітка", вони не "вимірюють". Номінальні та дихотомічні / бінарні типи шкал є категоричними. Деякі люди також вважають порядкову шкалу категоричною.

13
K-засоби кластеризації для змішаних числових та категоричних даних
Мій набір даних містить ряд числових атрибутів та один категоричний. Скажіть NumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, де CategoricalAttrприймає один з трьох можливих значень: CategoricalAttrValue1, CategoricalAttrValue2або CategoricalAttrValue3. Я використовую реалізацію алгоритму кластеризації k-означає за замовчуванням для Octave https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ . Він працює лише з числовими даними. Отже, моє запитання: чи правильно розділити …

3
Коли використовувати One Hot Encoding vs LabelEncoder vs DictVectorizor?
Я вже деякий час будую моделі з категоричними даними, і коли в цій ситуації я за замовчуванням використовую функцію LabelEncoder scikit-learn для перетворення цих даних перед побудовою моделі. Я розумію різницю між OHE, LabelEncoderі DictVectorizorз точки зору того, що вони роблять , щоб дані, але то , що мені не …

3
Як поєднувати категоричні та безперервні функції введення для тренувань нейронної мережі
Припустимо, у нас є два види вхідних функцій, категоричні та безперервні. Категоричні дані можуть бути представлені у вигляді гарячого коду A, тоді як безперервні дані є просто вектором B у просторі N розмірів. Здається, що просто використання concat (A, B) не є вдалим вибором, оскільки A, B - це абсолютно …

2
Чому нам потрібно відмовитись від однієї фіктивної змінної?
Я дізнався, що для створення регресійної моделі ми повинні піклуватися про категоричні змінні, перетворюючи їх у фіктивні змінні. Наприклад, якщо в наборі даних є така змінна, як розташування: Location ---------- Californian NY Florida Ми повинні їх перетворити так: 1 0 0 0 1 0 0 0 1 Однак було запропоновано …

1
Особливість важливості з високою кардинальністю для регресії (числова змінна залежність)
Я намагався використовувати імпорт функцій з Random Forests, щоб здійснити деякий емпіричний вибір функції для проблеми регресії, де всі функції є категоричними і багато з них мають багато рівнів (порядку 100-1000). Зважаючи на те, що одне гаряче кодування створює фіктивну змінну для кожного рівня, імпорт функцій - для кожного рівня, …

3
Масове перетворення категоричних стовпців у пандах (не одноразове кодування)
У мене є рамки даних панди з тоннами категоричних стовпців, які я планую використовувати в дереві рішень з scikit-learn. Мені потрібно перетворити їх на числові значення (не один гарячий вектор). Я можу це зробити з LabelEncoder від scikit-learn. Проблема в тому, що їх занадто багато, і я не хочу їх …

3
Як я можу динамічно розрізняти категоричні дані та числові дані?
Я знаю когось, хто працює над проектом, який передбачає введення файлів даних без огляду на стовпці чи типи даних. Завдання - взяти файл з будь-якою кількістю стовпців та різними типами даних та вивести підсумкову статистику на числові дані. Однак він не знає, як рухатись щодо динамічного призначення типів даних певним …

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Як конвертувати категоричні дані в числові дані в Pyspark
Я використовую ноутбук Ipython для роботи з програмами pyspark. У мене є файл CSV з великою кількістю категоричних стовпців, щоб визначити, чи потрапляє дохід під діапазон 50k або більше. Я хотів би виконати алгоритм класифікації, беручи всі вхідні дані для визначення діапазону доходів. Мені потрібно побудувати словник змінних до відображених …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Як я можу класифікувати категоричні дані, які не виправлені?
У мене є проблема класифікації як категоричних, так і числових даних. Проблема, з якою я стикаюся, полягає в тому, що мої категоричні дані не виправлені, це означає, що новий кандидат, ярлик якого я хочу передбачити, може мати нову категорію, яку раніше не спостерігали. Наприклад, якщо мої категоричні дані були sexєдино …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.