Запитання з тегом «sampling»

4
Інтуїтивне пояснення втрат протишумної оцінки (NCE)?
Я читав про NCE (форму вибірки кандидатів) з цих двох джерел: Тенсдорфловський запис Оригінальний папір Чи може мені хтось допомогти з наступним: Просте пояснення того, як працює NCE (мені було сказано, що важко розібратися та зрозуміти, тому щось інтуїтивне, що призводить до математики, представленої там, було б чудово) Після пункту …

2
Помилка train_test_split (): Знайдено вхідні змінні з невідповідною кількістю зразків
Досить нова у Python, але будую мою першу модель РФ на основі деяких класифікаційних даних. Я перетворив усі мітки в числові дані int64 і завантажив у X і Y як масивний ряд, але я відчуваю помилку, коли намагаюся тренувати моделі. Ось як виглядають мої масиви: >>> X = np.array([[df.tran_cityname, df.tran_signupos, …

1
Чи потрібна стратифікована вибірка (випадковий ліс, Python)?
Я використовую Python для запуску випадкової лісової моделі на моєму незбалансованому наборі даних (цільовою змінною був двійковий клас). Розбиваючи навчальний і тестуючий набір даних, я намагався використати стратифіковану вибірку (наприклад, показаний код) чи ні. Поки я в своєму проекті зауважував, що стратифікований випадок призведе до більш високої продуктивності моделі. Але …

1
Скільки функцій для вибірки за допомогою випадкових лісів
Сторінка Вікіпедії, яка цитує "Елементи статистичного навчання", говорить: Як правило, для завдання класифікації з функцій, ⌊ √ppp функції використовуються в кожному розділі.⌊ стор-√⌋⌊p⌋\lfloor \sqrt{p}\rfloor Я розумію, що це досить гарна освічена здогадка, і це, мабуть, було підтверджено емпіричними свідченнями, але чи є інші причини, чому можна вибрати квадратний корінь? Чи …

3
Чи потрібно використовувати незбалансований клас, коли я використовую під час вибірки мої набори даних перевірки / тестування?
Я початківець у машинному навчанні і зіткнувся з ситуацією. Я працюю над проблемою встановлення ставок у режимі реального часу з набором даних IPinYou і намагаюся зробити прогноз кліків. Вся справа в тому, що, як ви можете знати, набір даних дуже незбалансований: близько 1300 негативних прикладів (не клацання) за 1 позитивний …

2
чому нам потрібно обробляти дисбаланс даних?
Мені потрібно знати, чому нам потрібно мати справу з дисбалансом даних. Я знаю, як впоратися з цим і різними методами вирішити проблему, яка полягає у вибіранні або зменшенні вибірки або за допомогою Smote. Наприклад, якщо у мене рідкісне захворювання - 1 відсоток із 100, і скажемо, що я вирішив створити …

1
Скільки клітин LSTM я повинен використовувати?
Чи є якісь правила (чи фактичні правила), що стосуються мінімальної, максимальної та "розумної" кількості комірок LSTM, які я повинен використовувати? Зокрема, я стосуюсь BasicLSTMCell від TensorFlow та num_unitsвласності. Будь ласка, припустіть, що у мене проблема класифікації, визначена: t - number of time steps n - length of input vector in …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

3
Коли нам слід вважати набір даних незбалансованим?
Я стикаюся з ситуацією, коли кількість позитивних та негативних прикладів у наборі даних є незбалансованим. Моє запитання: чи існують якісь принципові правила, які підказують нам, коли нам слід підпробовувати велику категорію, щоб змусити якесь врівноваження в наборі даних. Приклади: Якщо кількість позитивних прикладів становить 1000, а кількість негативних прикладів - …

2
Перехресне підтвердження: K-кратне та повторне випадкове під вибірку
Цікаво, який тип перехресної перевірки моделі вибрати для проблеми класифікації: K-кратна або випадкова підсемплікація (вибірка завантажувальної програми)? Моя найкраща здогадка - використовувати 2/3 набору даних (що становить ~ 1000 предметів) для навчання та 1/3 для перевірки. У цьому випадку K-кратність дає лише три ітерації (складки), що недостатньо, щоб побачити стабільну …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.