Наука про дані

4

Короткий посібник з навчання сильно незбалансованих наборів даних

У мене є проблема класифікації приблизно 1000 позитивних та 10000 негативних зразків у навчальному наборі. Тож цей набір даних є досить незбалансованим. Простий випадковий ліс просто намагається позначити всі тестові зразки як мажоритарний клас. Тут наведено кілька хороших відповідей щодо підбірки та зваженого випадкового лісу: Які наслідки для підготовки Деревного …

29 machine-learning classification dataset unbalanced-classes

6

Чи є інструменти для художньої інженерії?

Зокрема, я шукаю інструменти з деякою функціональністю, яка є специфічною для інженерії функцій. Я хотів би мати можливість легко згладжувати, візуалізувати, заповнювати прогалини тощо. Щось подібне до MS Excel, але ця мова має R як основну мову замість VB.

29 feature-selection feature-extraction feature-construction

6

Як зробити SVD та PCA з великими даними?

У мене великий набір даних (близько 8 ГБ). Я хотів би використовувати машинне навчання для його аналізу. Отже, я думаю, що я повинен використовувати SVD, а потім PCA, щоб зменшити розмірність даних для ефективності. Однак MATLAB і Octave не можуть завантажити такий великий набір даних. Які інструменти я можу використовувати …

29 bigdata data-mining dimensionality-reduction

4

Як працюють наступні шари згортки?

Це питання зводиться до того, як саме працюють шари згортки . Припустимо, у мене є відтінків сірого. Отже, зображення має один канал. У першому шарі я кратну кратну згортку з фільтрами та накладками. Тоді у мене є ще один шар згортки з згортками та фільтрами. Скільки функціональних карт у мене …

29 neural-network convnet

3

Вибір між процесором та графічним процесором для навчання нейронної мережі

Я бачив дискусії з приводу "накладних витрат" GPU, і що для "малих" мереж тренування на процесорі (або мережі процесорів) може бути швидше, ніж на графічному процесорі. Що означає «малий»? Наприклад, чи буде одношаровий MLP зі 100 прихованими одиницями "малим"? Чи змінюється наше визначення "малої" для періодичних архітектур? Чи є якісь …

29 neural-network deep-learning gpu

3

Ієрархічний формат даних. Які переваги порівняно з альтернативними форматами?

Які основні переваги від зберігання даних у форматі HDF? І які основні завдання з інформатики, коли HDF дійсно підходить і корисний?

28 data-formats hierarchical-data-format

4

Дані рядка розбору нейронної мережі?

Отже, я тільки починаю дізнаватися, як нейронна мережа може діяти для розпізнавання шаблонів і категоризації входів, і я бачила, як штучна нейронна мережа може розбирати дані зображення та класифікувати зображення ( демонстрацію з convnetjs ) та ключ там полягає в тому, щоб зменшити вибірку зображення, і кожен піксель стимулює один …

28 neural-network

4

Коли використовувати Random Forest над SVM та навпаки?

Коли один використовувати Random Forestбільш SVMі навпаки? Я розумію, що cross-validationпорівняння моделі є важливим аспектом вибору моделі, але тут я хотів би дізнатися більше про правила роботи та евристику двох методів. Чи може хтось, будь ласка, пояснити тонкощі, сильні та слабкі сторони класифікаторів, а також проблеми, які найкраще підходять до …

28 machine-learning classification random-forest svm

4

Які алгоритми я повинен використовувати для класифікації роботи на основі даних резюме?

Зауважте, що я все роблю в Р. Проблема полягає в наступному: В основному, у мене є список резюме (резюме). Деякі кандидати будуть мати досвід роботи раніше, а деякі ні. Мета полягає в тому, щоб: грунтуючись на тексті їх резюме, я хочу класифікувати їх у різні сфери роботи. Я, зокрема, в …

28 machine-learning classification nlp text-mining

4

Чи слід перекваліфікувати модель, якщо є нові спостереження?

Отже, мені не вдалося знайти жодної літератури на цю тему, але здається, що варто щось думати: Які найкращі практики у навчанні та оптимізації моделей за наявності нових спостережень? Чи є спосіб визначити період / частоту перепідготовки моделі до того, як прогнози почнуть погіршуватися? Чи надмірно підходить, якщо параметри оптимізуються для …

28 machine-learning predictive-modeling optimization training

3

Розуміння передбачуваної програми від MultiOutputClassifier

Я дотримуюсь цього прикладу на веб-сайті scikit-learn, щоб здійснити класифікацію багатовивідних даних з моделлю Random Forest. from sklearn.datasets import make_classification from sklearn.multioutput import MultiOutputClassifier from sklearn.ensemble import RandomForestClassifier from sklearn.utils import shuffle import numpy as np X, y1 = make_classification(n_samples=5, n_features=5, n_informative=2, n_classes=2, random_state=1) y2 = shuffle(y1, random_state=1) Y = …

28 scikit-learn random-forest multilabel-classification

6

Чим відрізняються гіперпараметри моделі від параметрів моделі?

Я помітив, що такі терміни, як гіперпараметр моделі та параметр моделі , використовуються взаємозамінно в Інтернеті без попереднього уточнення. Я думаю, що це неправильно і потребує пояснення. Розглянемо модель машинного навчання, класифікатор на основі SVM / NN / NB або розпізнавач зображень - будь-що все, що спочатку спадає на думку. …

28 machine-learning parameter hyperparameter language-model

3

Гіпертунінг параметрів XGBoost

XGBoost робив чудову роботу, коли справа стосується як категоричних, так і постійних залежних змінних. Але як вибрати оптимізовані параметри для проблеми XGBoost? Ось як я застосував параметри для недавньої проблеми Kaggle: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed …

27 r python xgboost

4

Застосування та відмінності для подібності Жакарда та подібності косину

Подібність Жакарда та косинусова схожість - це два дуже поширених виміру при порівнянні подібності предметів. Однак мені не дуже зрозуміло, в якій ситуації потрібно віддати перевагу іншій. Чи може хтось допомогти з’ясувати відмінності цих двох вимірювань (різниця в понятті чи принципі, а не у визначенні чи обчисленнях) та їх кращих …

27 similarity

1

RNN з багатьма можливостями

У мене є небагато знань самоучки, що працюють з алгоритмами машинного навчання (основні матеріали типу "Випадкова лісова та лінійна регресія"). Я вирішив розгалужуватися і почати вивчати RNN з Керасом. Переглядаючи більшість прикладів, які зазвичай передбачають передбачення запасів, я не зміг знайти жодних основних прикладів використання декількох функцій, крім 1 стовпця, …

27 machine-learning neural-network keras