Запитання з тегом «reinforcement-learning»

Область машинного навчання, пов’язана з тим, як програмні агенти повинні вживати дії в середовищі, щоб максимізувати деяке уявлення про сукупну винагороду.

5
Що таке функція Q та яка функція V у навчанні посилення?
Мені здається, що функцію можна легко виразити функцією і тому функція видається мені зайвою. Однак я новачок у навчанні підкріплення, тож я здогадуюсь, що щось не так.VVVQQQVVV Визначення Q-і V-навчання в контексті процесів рішення Маркова . MDP представляє собою 5-кортеж (S,A,P,R,γ)(S,A,P,R,γ)(S, A, P, R, \gamma) з SSS - це набір …

1
Чому xgboost так швидше, ніж sklearn GradientBoostingClassifier?
Я намагаюся підготувати градієнтну модель для збільшення градієнта на 50 к. Прикладах із 100 числовими функціями. XGBClassifierобробляє 500 дерев протягом 43 секунд на моїй машині, тоді як GradientBoostingClassifierобробляє лише 10 дерев (!) за 1 хвилину і 2 секунди :( Я не намагався виростити 500 дерев, як це займе години. Я …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

5
Різниця між політичною мережею AlphaGo та мережевою мережею
Я читав резюме високого рівня про AlphaGo Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), і натрапив на терміни "політика мережа "та" мережа цінностей ". На високому рівні я розумію, що мережа політик використовується для пропонування рухів, а мережа значень використовується для "зменшення глибини дерева пошуку [та оцінки] переможця в кожній позиції замість пошуку …

2
Що саме є завантажувальним при навчанні підкріплення?
Мабуть, у навчанні з підсиленням метод тимчасової різниці (TD) є методом завантаження. З іншого боку, методи Монте-Карло не є методами завантаження. Що саме таке завантажувальна програма в RL? Що таке метод завантаження в RL?

1
Що таке "перегляд досвіду" та які його переваги?
Я читав статтю Google DeepMind Atari і намагаюся зрозуміти поняття "перегляд досвіду". Повтор досвіду з'являється у багатьох інших навчальних роботах з підкріпленням (зокрема, папері AlphaGo), тому я хочу зрозуміти, як це працює. Нижче наведено кілька уривків. По-перше, ми використовували біологічно натхненний механізм, який називають переглядом досвіду, який рандомізує дані, тим …

4
AlphaGo (та інші ігрові програми, що використовують підкріплення) без людських баз даних
Я не фахівець з цього питання, і моє питання, мабуть, дуже наївне. Це випливає з есе для розуміння повноважень та обмежень навчання підкріплення, що використовується в програмі AlphaGo. Програма AlphaGo була побудована, використовуючи, серед іншого (Монте-Карло розвідка дерев тощо), нейронні мережі, які навчаються з величезної бази ігор, що граються людьми, …

1
Контрольоване навчання порівняно з навчанням на підсилення для простого автомобіля, що керує собою
Я будую дистанційно керований автомобіль для самостійного водіння для задоволення. Я використовую Raspberry Pi як бортовий комп'ютер; і я використовую різні плагіни, наприклад, камеру Raspberry Pi та датчики відстані, для зворотного зв’язку щодо оточення автомобіля. Я використовую OpenCV для перетворення відеокадрів у тензори, а я використовую TensorFlow від Google, щоб …

3
Чи є якісні нестандартні мовні моделі для python?
Я прототипую додаток, і мені потрібна мовна модель, щоб обчислити здивування в деяких створених пропозиціях. Чи є якась навчена мовна модель в python, яку я можу легко використовувати? Щось на кшталт простого model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') …
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
Кооперативне зміцнення навчання
У мене вже є реалізація для одного агента, який працює над проблемою динамічного ціноутворення з метою максимізації доходу. Однак проблема, з якою я працюю, полягає в декількох різних продуктах, які є заміною один одному, тому динамічне ціноутворення на них усіх з незалежними учнями здається некоректним, оскільки ціна одного впливає на …

2
здійснення часової різниці в шахах
Я розробляв шахову програму, яка використовує алгоритм обрізки альфа-бета та функцію оцінювання, яка оцінює позиції за допомогою наступних функцій, а саме: матеріал, безпека, мобільність, структура пішака та захоплені шматочки тощо ..... Моя функція оцінювання: походить від f(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p)=w1⋅material+w2⋅kingsafety+w3⋅mobility+w4⋅pawn-structure+w5⋅trapped piecesf(p) = w_1 \cdot \text{material} + w_2 \cdot \text{kingsafety} + w_3 \cdot …

4
Книги про навчання зміцненню
Я вже досить давно намагаюся зрозуміти навчання з підкріпленням, але я якось не в змозі уявити, як написати програму для навчання підкріплення для вирішення глобальної глобальної проблеми. Чи можете ви запропонувати мені кілька підручників, які допоможуть мені створити чітку концепцію зміцнення навчання?

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.