Наука про дані machine-learning

4

У яких випадках краще використовувати дерево рішень, а в інших випадках - KNN? Навіщо використовувати один з них у певних випадках? А інший у різних випадках? (Переглядаючи його функціональність, а не алгоритм) Хтось має якісь пояснення чи посилання на це?

15 machine-learning data-mining decision-trees

1

Чи потрібна стратифікована вибірка (випадковий ліс, Python)?

Я використовую Python для запуску випадкової лісової моделі на моєму незбалансованому наборі даних (цільовою змінною був двійковий клас). Розбиваючи навчальний і тестуючий набір даних, я намагався використати стратифіковану вибірку (наприклад, показаний код) чи ні. Поки я в своєму проекті зауважував, що стратифікований випадок призведе до більш високої продуктивності моделі. Але …

14 machine-learning python random-forest sampling training

3

Чому ансамблі такі нерозумно ефективні

Схоже, це стало аксіоматичним, що ансамбль учнів призводить до найкращих можливих модельних результатів - і це стає все рідше, наприклад, для одиночних моделей вигравати змагання, такі як Kaggle. Чи є теоретичне пояснення того, чому ансамблі настільки дивно ефективні?

14 machine-learning data-mining predictive-modeling

2

Використання атрибутів для класифікації / кластеризації користувачів

У мене є набір даних користувачів, які купують продукти з веб-сайту. Атрибути, які я маю, - це ідентифікатор користувача, регіон (штат) користувача, ідентифікатор категорій продукту, ідентифікатор ключових слів продукту, ідентифікатор ключових слів веб-сайту та витрата товару на витрату. Метою є використання інформації про продукт та веб-сайт, щоб визначити, хто такі …

14 machine-learning data-mining classification clustering

1

Бібліотеки машинного навчання для Ruby

Чи існують бібліотеки машинного навчання для Ruby, які є відносно повними (включаючи широкий спектр алгоритмів керованого та непідконтрольного навчання), надійно перевірених та добре задокументованих? Мені подобається наукове навчання Python за його неймовірну документацію, але клієнт вважає за краще написати код у Ruby, оскільки саме з цим вони знайомі. В ідеалі …

14 machine-learning

2

Модель бінарної класифікації для незбалансованих даних

У мене є набір даних із такими специфікаціями: Навчальний набір даних з 193 176 зразками з 2821 позитивом Тестовий набір даних із 82 887 зразків із 673 позитивними Є 10 функцій. Я хочу виконати двійкову класифікацію (0 або 1). Проблема, з якою я стикаюся, полягає в тому, що дані дуже …

14 machine-learning python classification logistic-regression

4

Які наслідки для навчання ансамблю дерев із сильно упередженими наборами даних?

У мене є дуже упереджений бінарний набір даних - у мене на 1000 разів більше прикладів негативного класу, ніж позитивного класу. Я хотів би тренувати ансамбль дерев (наприклад, додаткові випадкові дерева або випадковий ліс) за цими даними, але важко створити набори навчальних наборів, які містять достатньо прикладів позитивного класу. Якими …

14 machine-learning feature-selection unbalanced-classes

4

Шукаємо, наприклад, інфраструктурні стеки / робочі потоки / трубопроводи

Я намагаюся зрозуміти, як всі компоненти "великих даних" грають разом у реальному випадку використання, наприклад, hadoop, monogodb / nosql, storm, kafka, ... Я знаю, що це досить широкий спектр інструментів, які використовуються для різних типів, але я хотів би дізнатися більше про їх взаємодію в додатках, наприклад, мислення машинного навчання …

14 machine-learning bigdata efficiency scalability distributed

1

Як додати функції зображень, що не належать до зображень, поруч із зображеннями бік як вхід CNN

Я треную конволюційну нейронну мережу для класифікації зображень за умовами туману (3 класи). Однак для кожного з приблизно 150 000 зображень у мене також є чотири метеорологічні змінні, які можуть допомогти передбачити класи зображень. Мені було цікаво, як я можу додати метеорологічні змінні (наприклад, температуру, швидкість вітру) до існуючої структури …

14 machine-learning neural-network deep-learning tensorflow cnn

3

Чи є клас особи в ImageNet? Чи є заняття, пов’язані з людиною?

Якщо я перегляну одне з багатьох джерел для класів Imagenet в Інтернеті, я не можу знайти жодного класу, пов’язаного з людьми (і ні, жнивець - це не той, хто збирає урожай, але це те, що я знав, як тато довгі ноги, такий собі павук :-). Як це можливо? Я б, …

14 machine-learning deep-learning dataset convnet image-classification

5

Книги з математики для початківців для машинного навчання

Я інженер з інформатики, що не маю досвіду в статистиці чи вдосконаленій математиці. Я вивчаю книгу « Машинне навчання Python» від Рашка та Мирджалілі, але коли я спробував зрозуміти математику машинного навчання, я не зміг зрозуміти велику книгу, яку друг запропонував мені «Елементи статистичного навчання» . Чи знаєте ви простіші …

14 machine-learning statistics reference-request math

1

Поширення назад через максимум шарів об'єднання

У мене є невелике підпитання до цього питання . Я розумію, що при розповсюдженні назад через максимальний шар об'єднання градієнт повертається назад таким чином, що нейрон в попередньому шарі, який був обраний як max, отримує весь градієнт. У чому я не впевнений на 100% - це те, як градієнт у …

14 machine-learning neural-network convnet backpropagation

3

Чи потрібно використовувати незбалансований клас, коли я використовую під час вибірки мої набори даних перевірки / тестування?

Я початківець у машинному навчанні і зіткнувся з ситуацією. Я працюю над проблемою встановлення ставок у режимі реального часу з набором даних IPinYou і намагаюся зробити прогноз кліків. Вся справа в тому, що, як ви можете знати, набір даних дуже незбалансований: близько 1300 негативних прикладів (не клацання) за 1 позитивний …

14 machine-learning dataset sampling

2

Високомірні дані: Які корисні методи знати?

Через різні прокльони розмірності , точність та швидкість багатьох поширених методів прогнозування деградують на даних високих розмірів. Які є найбільш корисні методи / прийоми / евристики, які допомагають ефективно працювати з великомірними даними? Наприклад, Чи добре виконуються певні методи статистичного / моделювання на високомірних наборах даних? Чи можемо ми покращити …

14 machine-learning statistics dimensionality-reduction

3

Змінення розміру зображення та обшивка для CNN

Я хочу навчити CNN для розпізнавання зображень. Зображення для тренувань не мають фіксованого розміру. Наприклад, я хочу, щоб розмір вводу для CNN становив 50x100 (висота x ширина), наприклад. Коли я змінюю розмір невеликих розмірів зображень (наприклад, 32x32) до розміру введення, вміст зображення занадто сильно розтягується по горизонталі, але для деяких …

14 machine-learning image-classification preprocessing image-recognition

Запитання з тегом «machine-learning»