Запитання з тегом «dataset»

Набір даних - це набір даних, часто у формі таблиці або матриці. Цей тег НЕ призначений для запитів даних ("де я можу знайти набір даних про ...") -> див. OpenData

6
Набори даних, що розуміють кращі практики
Я студент-магістр CS з вибору даних. Мій керівник одного разу сказав мені, що перед тим, як запустити будь-який класифікатор або зробити що-небудь із набором даних, я повинен повністю зрозуміти дані та переконатися, що дані чисті та правильні. Мої запитання: Які найкращі практики для розуміння набору даних (великі розміри з числовими …

4
Одна гаряча альтернатива кодування для великих категоричних значень?
Привіт, є кадр даних з великими категоричними значеннями понад 1600 категорій, чи є спосіб знайти альтернативи, щоб у мене не було понад 1600 стовпців. Я знайшов це нижче за цікавим посиланням http://amunategui.github.io/feature-hashing/#sourcecode Але вони перетворюються на клас / об’єкт, якого я не хочу. Я хочу, щоб мій кінцевий результат був …

2
чому нам потрібно обробляти дисбаланс даних?
Мені потрібно знати, чому нам потрібно мати справу з дисбалансом даних. Я знаю, як впоратися з цим і різними методами вирішити проблему, яка полягає у вибіранні або зменшенні вибірки або за допомогою Smote. Наприклад, якщо у мене рідкісне захворювання - 1 відсоток із 100, і скажемо, що я вирішив створити …

2
Вартість авіаперевезень - Який аналіз слід використовувати для виявлення конкурентної поведінки та цінових співвідношень?
Я хочу дослідити поведінку авіакомпаній щодо встановлення цін - зокрема, як авіакомпанії реагують на ціни конкурентів. Як я б сказав, мої знання про більш складний аналіз досить обмежені, я робив здебільшого всі основні методи, щоб зібрати загальний вигляд даних. Сюди входять прості графіки, які вже допомагають виявити подібні зразки. Я …

4
Завантаження великого набору даних в Інтернеті безпосередньо в AWS S3
Хтось знає, чи можна імпортувати великий набір даних в Amazon S3 з URL-адреси? В основному я хочу уникати завантаження величезного файлу, а потім перезавантаження його на S3 через веб-портал. Я просто хочу надати URL-адресу завантаження на S3 і чекати, коли вони завантажать його у свою файлову систему. Здається, це легко …
12 dataset  aws 

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Скільки даних достатньо для навчання моєї моделі машинного навчання?
Я деякий час працював над машинним навчанням та біоінформатикою, і сьогодні я мав розмову з колегою про основні загальні питання видобутку даних. Мій колега (який є експертом з машинного навчання) сказав, що, на його думку, найважливішим практичним аспектом машинного навчання є те, як зрозуміти, чи ви зібрали достатньо даних для …

4
Де можна завантажити дані про історичну ринкову капіталізацію та щоденний оборот для акцій?
Існує безліч джерел, які надають історичні дані про запаси, але вони надають лише поля OHLC разом із обсягом та відрегульованими близько. Також декілька джерел, які я знайшов, надають набір даних про ринкові обмеження, але вони обмежені запасами США. Yahoo Finance надає ці дані в Інтернеті, але немає можливості їх завантажувати …
11 dataset 

3
Коли нам слід вважати набір даних незбалансованим?
Я стикаюся з ситуацією, коли кількість позитивних та негативних прикладів у наборі даних є незбалансованим. Моє запитання: чи існують якісь принципові правила, які підказують нам, коли нам слід підпробовувати велику категорію, щоб змусити якесь врівноваження в наборі даних. Приклади: Якщо кількість позитивних прикладів становить 1000, а кількість негативних прикладів - …

3
Класичний набір даних мережі
Існує кілька класичних наборів даних для завдань машинного навчання класифікації / регресії. Найпопулярніші: Набір даних про квіткові райдужки ; Титанічний набір даних ; Автомобільні тренди ; тощо. Але хтось знає подібні набори даних для аналізу мереж / теорії графіків? Більш конкретно - я шукаю стандартні набори даних Gold для порівняння …
10 dataset  graphs 

1
Чи можна HDF5 надійно записувати та читати одночасно окремими процесами python?
Я пишу сценарій для того, щоб записати дані в реальному часі в один файл HDF5, який включає весь мій набір даних для цього проекту. Я працюю з Python 3.6 і вирішив створити інструмент командного рядка clickдля збору даних. Мене хвилює те, що станеться, якщо сценарій збору даних запишеться у файл …
9 python  dataset 

2
Набори даних орієнтирів для спільної фільтрації
Я хотів би перевірити новий алгоритм спільної фільтрації . Типовим випадком використання є рекомендувати фільми на основі уподобань користувачів, схожих на конкретного користувача. Назвіть декілька загальних наборів даних, які дослідники часто використовують для тестування своїх алгоритмів? Я знаю, що в Computer Vision люди часто використовують MNIST або CIFAR, але я …

2
Як моделювати поведінку покупців користувачів на Amazon?
Для нашого підсумкового курсового проекту з наукових даних ми запропонували наступне: Надайте набір даних обзорів Amazon , ми плануємо розробити алгоритм (орієнтований приблизно на персоналізований PageRank), який визначає стратегічну позицію для розміщення реклами на Amazon. Наприклад, на Amazon є мільйони продуктів. І набір даних дає вам уявлення про те, з …

4
Запропонувати набори навчальних наборів текстів класифікатора
Які вільно доступні набори даних я можу використовувати для тренування класифікатора тексту? Ми намагаємось посилити залучення наших користувачів, рекомендуючи для нього найпов'язаніший вміст, тому ми подумали, що якщо ми класифікуємо наш вміст на основі заздалегідь визначеного пакету слів, ми можемо рекомендувати йому залучати вміст, отримуючи його відгуки про випадкову кількість …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.