Запитання з тегом «feature-engineering»

процес використання доменних знань даних для створення функцій, що вдосконалюють алгоритми машинного навчання

3
Коли використовувати One Hot Encoding vs LabelEncoder vs DictVectorizor?
Я вже деякий час будую моделі з категоричними даними, і коли в цій ситуації я за замовчуванням використовую функцію LabelEncoder scikit-learn для перетворення цих даних перед побудовою моделі. Я розумію різницю між OHE, LabelEncoderі DictVectorizorз точки зору того, що вони роблять , щоб дані, але то , що мені не …

6
Кодування таких функцій, як місяць і година, як категоріальна чи числова?
Чи краще в моделі машинного навчання кодувати такі функції, як місяць і година як фактор або число? З одного боку, я вважаю, що числове кодування може бути розумним, оскільки час - це процес прогресування вперед (п'ятий місяць супроводжується шостим місяцем), але з іншого боку, я думаю, що категоричне кодування може …


1
Чи слід масштабувати один гарячий вектор числовими атрибутами
У випадку поєднання категоричних та числових атрибутів я зазвичай перетворюю категоричні атрибути в один гарячий вектор. Моє запитання: чи залишаю я ці вектори такими, які є, і масштабувати числові атрибути шляхом стандартизації / нормалізації, або я повинен масштабувати один гарячий вектор разом із числовими атрибутами?

3
Як виконати інженерію функцій на невідомих функціях?
Я беру участь у змаганнях з кагл. Набір даних має близько 100 функцій і всі невідомі (з точки зору того, що насправді вони представляють). В основному це просто цифри. Люди виконують багато інженерних можливостей щодо цих функцій. Мені цікаво, як саме можна вміти виконувати інженерну програму на невідомих функціях? Може …

1
Способи вирішення функції довготи / широти [закрито]
Закрито . Це питання потребує деталей або ясності . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Додайте деталі та уточніть проблему, відредагувавши цю публікацію . Закрито 3 роки тому . Я працюю над вигаданим набором даних з 25 функціями. Дві особливості - це широта та довгота місця, а інші …

5
збільшують теплову карту для новонароджених
Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
Чому ми перетворюємо перекошені дані в звичайний розподіл
Я переглядав рішення конкурсу цін на житло на Kaggle (Ядерний аналог людини на ціни на житло : Техніка попередньої регресії ) і натрапив на цю частину: # Transform the skewed numeric features by taking log(feature + 1). # This will make the features more normal. from scipy.stats import skew skewed …

1
Чим відрізняється одне гаряче кодування від одного кодування?
Я читаю презентацію, і вона рекомендує не використовувати кодування не залишати, але це добре з одним гарячим кодуванням. Я думав, що вони обоє однакові. Чи може хтось описати, у чому полягають відмінності між ними?

4
Це хороша практика художньої інженерії?
У мене є практичне питання щодо функціональної інженерії ... скажіть, я хочу спрогнозувати ціни на будинки, використовуючи логістичну регресію та використовуючи купу функцій, включаючи поштовий індекс. Потім, перевіривши важливість функції, я розумію, що поштовий індекс є досить хорошою характеристикою, тому я вирішив додати ще кілька функцій на основі zip - …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.