Запитання з тегом «efficiency»

Ефективність алгоритмічної обробки, як правило, пов'язана з використанням ресурсів. Метрики для оцінки ефективності процесу зазвичай враховують час виконання, вимоги до пам'яті / диску чи сховищі, використання мережі та енергоспоживання.

12
Наскільки великі великі дані?
Багато людей використовують термін великі дані досить комерційним шляхом, як засіб вказування на те, що великі набори даних беруть участь у обчисленнях, і тому потенційні рішення повинні мати хороші показники. Звичайно, великі дані завжди містять пов'язані терміни, такі як масштабованість та ефективність, але що саме визначає проблему як велику проблему …

5
Коли модель недостатня?
Логіка часто стверджує, що, якщо не вистачає моделі, її здатність до узагальнення збільшується. Однак, очевидно, що в якийсь момент недостатність моделі призводить до погіршення моделей незалежно від складності даних. Звідки ви знаєте, коли ваша модель досягла правильного балансу і не відповідає недостатнім даним, який вона намагається моделювати? Примітка. Це відповідь …

5
збільшують теплову карту для новонароджених
Я створюю corr()df з оригінального df. corr()ДФ вийшов 70 X 70 і неможливо уявити собі Heatmap ... sns.heatmap(df). Якщо я спробую відобразити corr = df.corr()таблицю, таблиця не відповідає екрану, і я бачу всі кореляції. Це спосіб або надрукувати весь, dfнезалежно від його розміру, або контролювати розмір теплової карти?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
Шукаємо, наприклад, інфраструктурні стеки / робочі потоки / трубопроводи
Я намагаюся зрозуміти, як всі компоненти "великих даних" грають разом у реальному випадку використання, наприклад, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, що це досить широкий спектр інструментів, які використовуються для різних типів, але я хотів би дізнатися більше про їх взаємодію в додатках, наприклад, мислення машинного навчання …

1
XGBRegressor проти xgboost.train величезна різниця швидкостей?
Якщо я треную свою модель, використовуючи наступний код: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) він закінчується приблизно за 1 хвилину. Якщо я треную свою модель, використовуючи метод …

2
Компроміси між штормом та Hadoop (MapReduce)
Чи може хтось люб’язно розказати мені про компроміси, які брали участь у виборі між Storm та MapReduce у кластері Hadoop для обробки даних? Звичайно, окрім очевидного, що Hadoop (обробка через MapReduce в кладоні Hadoop) є системою пакетної обробки, а Storm - системою обробки в режимі реального часу. Я трохи працював …

2
Чи все ще FPGrowth вважається "найсучаснішим" при частому видобутку шаблонів?
Наскільки я знаю, що розробляються алгоритми для вирішення проблеми частого видобутку шаблонів (FPM), шлях удосконалення має деякі основні контрольні точки. По-перше, алгоритм Апріорі був запропонований в 1993 році Agrawal et al. разом із формалізацією проблеми. Алгоритм зміг зняти деякі набори з 2^n - 1наборів (powerset), використовуючи решітку для підтримки даних. …

3
Кращі мови для наукових обчислень [закрито]
Закрито . Це питання має бути більш зосередженим . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно зосередило увагу на одній проблемі, лише відредагувавши цю публікацію . Закрито 5 років тому . Здається, що більшість мов мають деяку кількість бібліотек наукових обчислень. Python має Scipy Rust …
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
Як різноманітні статистичні методи (регресія, PCA тощо) масштабують з розміром та розміром вибірки?
Чи відома загальна таблиця статистичних методик, яка пояснює, як вони масштабуються з розміром і розміром вибірки? Наприклад, мій друг сказав мені днями, що час обчислення просто швидкого сортування одновимірних даних за розміром n йде як n * log (n). Наприклад, якщо ми регресуємо y проти X, де X є d-мірною …

1
Яка найефективніша методика індексації даних
Як ми всі знаємо, існують деякі методи індексації даних, використовуючи відомі додатки для індексації, такі як Lucene (для Java) або Lucene.NET (для .NET), MurMurHash, B + Tree тощо для No-Sql / Object Орієнтована база даних (яку я намагаюся трохи записати / пограти за допомогою C #), яку техніку ви пропонуєте? …

4
Чому важко надати ефективність під час використання бібліотек?
Будь-яка невелика обробка бази даних може бути легко вирішена сценаріями Python / Perl / ..., що використовує бібліотеки та / або навіть утиліти з самої мови. Однак, що стосується продуктивності, люди, як правило, тягнуться до мов C / C ++ / низького рівня. Можливість адаптації коду до потреб, здається, є …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.