Наука про дані

5

Різниця між політичною мережею AlphaGo та мережевою мережею

Я читав резюме високого рівня про AlphaGo Google ( http://googleresearch.blogspot.co.uk/2016/01/alphago-mastering-ancient-game-of-go.html ), і натрапив на терміни "політика мережа "та" мережа цінностей ". На високому рівні я розумію, що мережа політик використовується для пропонування рухів, а мережа значень використовується для "зменшення глибини дерева пошуку [та оцінки] переможця в кожній позиції замість пошуку …

25 machine-learning reinforcement-learning

4

Word2Vec для іменного розпізнавання особи

Я хочу використовувати реалізацію google word2vec для побудови названої системи розпізнавання сутностей. Я чув, що рекурсивні нейронні мережі з поширенням назад через структуру добре підходять для названих завдань розпізнавання об'єктів, але мені не вдалося знайти гідної реалізації або гідного підручника для цього типу моделі. Оскільки я працюю з нетиповим корпусом, …

25 machine-learning python neural-network nlp

3

Коефіцієнт Джині проти домішок Джині - дерева рішень

Проблема стосується побудови дерев рішень. Згідно з Вікіпедією, « коефіцієнт Джіні » не слід плутати з « домішкою Джині ». Однак обидва заходи можуть бути використані при складанні дерева рішень - вони можуть підтримувати наш вибір при розділенні набору елементів. 1) "домішка Джині" - це стандартна метрика поділу дерева рішень …

25 data-mining

3

Навіщо нам потрібні XGBoost та Random Forest?

Мені не було зрозуміло в кількох поняттях: XGBoost перетворює слабких учнів у сильних. Яка перевага в цьому? Об’єднання багатьох слабких учнів замість того, щоб просто використовувати одне дерево? Випадковий ліс використовує різні зразки з дерева для створення дерева. У чому перевага цього методу замість того, щоб просто використовувати єдине дерево?

25 machine-learning data-mining random-forest decision-trees xgboost

4

Scikit-learn: отримання SGDClassifier для прогнозування, а також логістичної регресії

Способом навчання логістичної регресії є використання стохастичного градієнтного спуску, яке scikit-learn пропонує інтерфейс. Що я хотів би зробити, це взяти SGDClassifier для scikit-learn і мати його так, як логістична регресія тут . Однак я повинен бракувати деяких удосконалень машинного навчання, оскільки мої бали не рівноцінні. Це мій поточний код. Що …

24 python logistic-regression scikit-learn gradient-descent

5

Образ VM для проектів з наукових даних

Оскільки є чимало інструментів, доступних для завдань із вивчення даних, і це громіздко встановити все і створити досконалу систему. Чи є зображення ОС Linux / Mac OS з Python, R та іншими інструментами з відкритим вихідним кодом, встановленими та доступними для того, щоб люди могли їх використовувати відразу? Ідеально підійде …

24 python r tools

4

Чи переважають випадкові ліси?

Я читав про випадкові ліси, але насправді не можу знайти остаточної відповіді на проблему надмірного оздоблення. Згідно з оригінальною доповіддю Бреймана, вони не повинні перевтомлюватися при збільшенні кількості дерев у лісі, але, здається, щодо цього немає єдиної думки. Це створює у мене досить непорозуміння щодо цього питання. Можливо, хтось більш …

24 machine-learning random-forest

9

Будь-яка онлайн-консоль R?

Я шукаю інтернет-консоль для мови R. Як я пишу код, і сервер повинен виконати і надати мені вихід. Подібно до веб-сайту Datacamp.

24 r statistics

3

Чому громади NLP та машинного навчання зацікавлені у глибокому навчанні?

Сподіваюся, ви можете мені допомогти, оскільки у мене є деякі запитання на цю тему. Я новачок у галузі глибокого навчання, і хоча я робив кілька навчальних посібників, я не можу співвідносити чи відрізняти поняття одне від одного.

24 machine-learning data-mining neural-network nlp deep-learning

3

Кращі практики для зберігання моделей машинного навчання Python

Які найкращі практики для збереження, зберігання та спільного використання моделей машинного навчання? У Python ми зазвичай зберігаємо двійкове представлення моделі, використовуючи соління або joblib. Моделі, в моєму випадку, можуть бути ~ 100Мо великими. Крім того, joblib може зберігати одну модель у декількох файлах, якщо ви не встановите compress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- коре …

24 python databases binary

4

Значення прихованих ознак?

Я дізнаюся про матричну факторизацію для систем рекомендацій, і я бачу, що термін latent featuresзустрічається занадто часто, але я не в змозі зрозуміти, що це означає. Я знаю, що таке особливість, але я не розумію ідеї прихованих рис. Чи можете ви поясніть це? Або принаймні вказати мені на папір / …

24 machine-learning data-mining recommender-system

4

Чи завжди краще використовувати весь набір даних для підготовки кінцевої моделі?

Загальна техніка після навчання, перевірки та тестування моделі уподобань машинного навчання полягає у використанні повного набору даних, включаючи тестовий підмножина, для підготовки кінцевої моделі для її розгортання , наприклад, на продукт. Моє запитання: чи завжди це найкраще робити? Що робити, якщо продуктивність насправді погіршиться? Наприклад, припустимо випадок, коли модель класифікує …

24 machine-learning dataset training accuracy

3

Чим відрізняється градієнтний спуск від стохастичного градієнтного спуску?

Чим відрізняється градієнтний спуск від стохастичного градієнтного спуску? Я не дуже знайомий з цими, чи можете ви описати різницю на короткому прикладі?

24 machine-learning neural-network deep-learning gradient-descent

3

Чи потребує моделювання з випадковими лісами перехресне підтвердження?

Наскільки я бачив, думки щодо цього зазвичай відрізняються. Найкраща практика, безумовно, диктує використання перехресної перевірки (особливо якщо порівнювати радіочастотні сигнали з іншими алгоритмами на тому ж наборі даних). З іншого боку, першоджерело стверджує, що обчислюється похибка OOB під час навчання моделі є достатньою для показника продуктивності тестового набору. Навіть Тревор …

23 random-forest cross-validation

3

Ідеї проекту з наукових даних [закрито]

Закрито . Це питання ґрунтується на думці . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб на нього можна було відповісти фактами та цитатами, відредагувавши цю публікацію . Закрито 5 років тому . Я не знаю, чи це правильне місце для того, щоб задати це питання, але …

23 machine-learning bigdata dataset