Запитання з тегом «machine-learning»

Методи та принципи побудови "комп'ютерних систем, які автоматично вдосконалюються з досвідом".


2
Яка перевага збереження розміру партії потужністю 2?
Під час навчання моделей машинного навчання, чому іноді вигідно тримати розмір партії до потужності 2? Я подумав, що найкраще використовувати розмір, який найбільше вписується у вашу пам’ять / оперативну пам’ять. Ця відповідь стверджує, що для деяких пакетів потужність 2 краще, ніж розмір партії. Чи може хтось надати детальне пояснення / …


1
Чому ReLU кращий за інші функції активації
Тут відповідь стосується зникаючих та вибухових градієнтів, які були у sigmoidподібних функціях активації, але, я думаю, Reluмає недолік, і це його очікуване значення. немає обмежень на вихід Reluта, тому його очікуване значення не дорівнює нулю. Я пам'ятаю час , перш ніж популярність , Reluщо tanhбув найпопулярнішим серед машинного навчання фахівців …

2
Doc2Vec - Як позначити абзаци (gensim)
Мені цікаво, як позначити (тег) речення / абзаци / документи з doc2vec в gensim - з практичної точки зору. Чи потрібно мати кожне речення / абзац / документ із власною унікальною міткою (наприклад, "Sent_123")? Це здається корисним, якщо ви хочете сказати, "які слова чи речення найбільш схожі на одне конкретне …

3
Баггінг проти випадання в глибоких нейронних мережах
Баггінг - це покоління декількох предикторів, яке працює так само симпатично, як і єдиний провісник. Випадання - це техніка, яка привчає нейронні мережі до порівняння всіх можливих підмереж. Дивлячись на найважливіші змагання Kaggle, здається, що ці дві техніки використовуються разом дуже часто. Я не бачу жодної теоретичної різниці, окрім реальної …

3
Найближчі сусіди шукають дуже високі розмірні дані
Я маю велику розріджену матрицю користувачів та елементів, які їм подобаються (порядку 1М користувачів та 100К елементів, із дуже низьким рівнем розрідженості). Я вивчаю способи, за допомогою яких я міг би здійснювати пошук kNN на ньому. Враховуючи розмір мого набору даних та деякі початкові тести, які я виконував, я припускаю, …

5
Виявлення котів візуально за допомогою виявлення аномалії
У мене є проект хобі, котрий я збираюся зробити як спосіб підвищення мого поки що обмеженого досвіду машинного навчання. Я взяв і закінчив MOOC Coursera з цієї теми. Моє запитання щодо можливості здійснення проекту. Завдання полягає в наступному: Сусідські коти час від часу відвідують мій сад, що мені не подобається, …

2
Використовуйте ліблінеар на великих даних для семантичного аналізу
Я використовую Libsvm для підготовки даних та прогнозування класифікації на проблему семантичного аналізу . Але у нього є випуск ефективності для масштабних даних, оскільки семантичний аналіз стосується проблеми n-виміру . Минулого року вийшов Liblinear , і це може вирішити вузькі місця. Але це коштувало занадто багато пам'яті . Чи MapReduce …

2
Як підвищити точність класифікаторів?
Я використовую OpenCV letter_recog.cpp приклад для експерименту над випадковими деревами та іншими класифікаторами. У цьому прикладі є реалізація шести класифікаторів - випадкових дерев, підсилюючих, MLP, kNN, наївних Bayes та SVM. Використовується набір даних розпізнавання листів UCI з 20000 екземплярами та 16 функціями, які я розділив навпіл для тренувань та тестування. …

5
збільшують теплову карту для новонароджених
Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

5
Об'єднання рідких та щільних даних у машинному навчанні для підвищення продуктивності
У мене є рідкісні функції, які є прогностичними, також у мене є деякі щільні риси, які також є прогностичними. Мені потрібно поєднати ці функції разом, щоб поліпшити загальну продуктивність класифікатора. Тепер, справа в тому, що я намагаюся поєднати їх разом, щільні риси, як правило, більше домінують над розрідженими характеристиками, отже, …

2
Чи слід застосовувати нормалізацію і для тестування даних?
Я роблю проект з проблеми ідентифікації автора. Я застосував нормалізацію tf-idf для підготовки даних, а потім навчив SVM для цих даних. Тепер при використанні класифікатора слід нормалізувати і тестові дані. Я вважаю, що основна мета нормалізації - зробити так, щоб навчальне альго надавало більшої ваги важливішим особливостям під час навчання. …

2
Де в робочому процесі ми маємо мати справу з відсутніми даними?
Я будую робочий процес для створення моделей машинного навчання (в моєму випадку, використовуючи Python pandasі sklearnпакунки) з даних, витягнутих з дуже великої бази даних (тут, Vertica за допомогою SQL і pyodbc), і критичний крок у цьому процесі передбачає введення відсутніх значення предикторів. Це зрозуміло в рамках однієї платформи аналітики чи …

1
Що таке оцінка LB в машинному навчанні?
Я переглядав статтю про блоги в чаті. Неодноразово автор згадує «бал LB» та «LB fit») як метрику ефективності машинного навчання (разом з перехресною валідацією (CV) балом). Дослідивши значення "ЛБ", я витратив досить багато часу, я зрозумів, що люди, як правило, безпосередньо називають його ЛБ без особливих передумов. Отже, моє запитання …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.