Наука про дані

5

Чи варто шукати набір даних "збалансований" або "представник"?

Моє завдання «машинного навчання» - відокремити доброякісний Інтернет-трафік від шкідливого трафіку. У реальному сценарії більшість (скажімо, 90% або більше) Інтернет-трафіку є доброякісними. Таким чином, я відчув, що мені слід вибрати подібний параметр даних і для навчання моїх моделей. Але я натрапив на дослідницький документ або два (в моєму районі роботи), …

48 machine-learning dataset unbalanced-classes

9

Як боротися з контролем версій великої кількості (бінарних) даних

Я докторант геофізики і працюю з великою кількістю даних про зображення (сотні ГБ, десятки тисяч файлів). Я добре знаю svnі gitціную історію проекту в поєднанні з можливістю легко працювати разом і захищати від корупції на диску. Я вважаю gitтакож надзвичайно корисним для постійних резервних копій, але я знаю, що git …

46 bigdata databases binary version-control

9

Альтернативи IDE для програмування на R (RStudio, IntelliJ IDEA, Eclipse, Visual Studio)

Я використовую RStudio для програмування R. Я пам’ятаю про солідні IDE з інших стеків технологій, таких як Visual Studio або Eclipse. У мене є два питання: Які інші IDE, ніж RStudio, використовуються (будь ласка, розгляньте, надавши короткий опис про них). Чи має хтось із них помітні переваги перед RStudio? Я …

46 r tools rstudio programming

10

Машинне навчання - функціонує інженерія з даних дати / часу

Які спільні / найкращі практики для обробки даних про час застосування машинного навчання? Наприклад, якщо в наборі даних є стовпець із часовою позначкою події, наприклад "2014-05-05", як ви можете витягти корисні функції з цього стовпця, якщо такі є? Спасибі заздалегідь!

45 machine-learning time-series feature-selection

9

Скільки поєднання даних - це робота вченого?

Зараз я працюю науковцем даних в роздрібній компанії (моя перша робота в якості DS, тому це питання може бути результатом мого браку досвіду). Вони мають величезний відставання дійсно важливих проектів з наукових даних, які мали б великий позитивний вплив у разі їх реалізації. Але. Трубопроводи даних не існують у компанії, …

44 data-wrangling

3

Кількість параметрів у моделі LSTM

Скільки параметрів має односкладений LSTM? Кількість параметрів накладає нижню межу на кількість необхідних прикладів тренувань, а також впливає на час навчання. Отже, знання кількості параметрів є корисним для навчальних моделей з використанням LSTM.

43 deep-learning rnn

4

Додавання функцій до моделі часових рядів LSTM

читав трохи про LSTM та їх використання для часових рядів, і це було цікаво, але важко водночас. Одне, що у мене виникли труднощі з розумінням, - це підхід до додавання додаткових функцій до того, що вже є переліком функцій часових рядів. Припустимо, що у вас є такий набір даних так: …

43 machine-learning neural-network deep-learning time-series

6

Як я можу перетворити імена в конфіденційний набір даних, щоб зробити його анонімним, але зберегти деякі характеристики імен?

Мотивація Я працюю з наборами даних, які містять особисту інформацію (PII), і іноді потрібно ділитися частиною набору даних з третіми сторонами, таким чином, що не піддають PII і не піддають мого роботодавця відповідальності. Наш звичайний підхід тут полягає в тому, щоб цілком утримувати дані або в деяких випадках зменшувати її …

42 data-cleaning anonymization

1

Чим відрізняється LeakyReLU від PReLU?

Я думав, що обидва, PReLU та Leaky ReLU є f(x)=max(x,αx) with α∈(0,1)f(x)=max(x,αx) with α∈(0,1)f(x) = \max(x, \alpha x) \qquad \text{ with } \alpha \in (0, 1) Керас, однак, обидві функції в документах . Leaky ReLU Джерело LeakyReLU : return K.relu(inputs, alpha=self.alpha) Звідси (див. Код relu ) f1(x)=max(0,x)−αmax(0,−x)f1(x)=max(0,x)−αmax(0,−x)f_1(x) = \max(0, x) …

42 neural-network

2

Як підготувати / збільшити зображення для нейронної мережі?

Я хотів би використовувати нейронну мережу для класифікації зображень. Почну з попередньо підготовленого CaffeNet і навчу його для мого застосування. Як слід підготувати вхідні зображення? У цьому випадку всі зображення однакового об’єкта, але з варіаціями (подумайте: контроль якості). Вони знаходяться в дещо різних масштабах / дозволах / відстанях / умовах …

41 neural-network image-classification preprocessing convnet

6

Косинусна схожість проти крапкового продукту як метрики відстані

Схоже, що косинусна схожість двох ознак - це лише їх крапковий продукт, який масштабується добутком їх величин. Коли подібність косинуса робить кращу метрику відстані, ніж крапка добутку? Тобто, чи крапка точкового і косинусного подібності мають різні сильні сторони або слабкі місця в різних ситуаціях?

41 classification

7

ValueError: Вхід містить NaN, нескінченність або занадто велике значення для dtype ('float32')

Я отримав ValueError при прогнозуванні даних тестів за допомогою моделі RandomForest. Мій код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Помилка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Як знайти погані значення в тестовому наборі даних? Крім …

41 python random-forest pandas

4

Чому розмір міні-партії краще, ніж одна «партія» з усіма навчальними даними?

Я часто читаю, що для моделей Deep Learning звичайною практикою є застосування міні-партій (як правило, невеликих, 32/64) протягом кількох навчальних епох. Я не можу зрозуміти причину цього. Якщо я не помиляюся, розмір партії - це кількість екземплярів тренувань, які модель бачила під час ітерації тренувань; і епоха - це повна …

40 machine-learning deep-learning

10

Чому моделі машинного навчання називають чорними скриньками?

Я читав цю публікацію в блозі під назвою: Фінансовий світ хоче відкрити чорні скриньки AI , де автор неодноразово називає моделі ML як "чорні скриньки". Подібна термінологія була використана в декількох місцях при посиланні на моделі ML. Чому так? Це не так, як інженери ML не знають, що відбувається всередині …

40 machine-learning terminology

10

Чи можуть алгоритми машинного навчання прогнозувати спортивні бали чи ігри?

У мене є безліч наборів даних NFL, які, на мою думку, можуть стати гарним побічним проектом, але я з ними ще нічого не робив. Заходжу на цей сайт, змусив мене подумати про алгоритми машинного навчання, і мені цікаво, наскільки вони хороші при прогнозуванні результатів футбольних ігор або навіть наступної гри. …

40 machine-learning sports