Запитання з тегом «python»

Використовуйте для наукових даних питання, пов'язані з мовою програмування Python. Не призначений для загальних питань кодування (-> stackoverflow).


8
Різниця між fit і fit_transform у моделях scikit_learn?
Я новачок у науці даних, і я не розумію різниці між методами fitі fit_transformнауками у навчанні. Чи може хтось просто пояснити, чому нам може знадобитися трансформація даних? Що означає відповідність моделі навчальних даних та перетворення на тестові дані? Чи означає це, наприклад, перетворення категоричних змінних у числа в поїзді та …

15
Python vs R для машинного навчання
Я тільки починаю розробляти додаток машинного навчання в академічних цілях. Зараз я використовую R і тренуюсь в ньому. Однак у багатьох місцях я бачив людей, які використовують Python . Чим користуються люди в наукових колах та промисловості, і яка рекомендація?

11
SVM за допомогою scikit learn працює нескінченно і ніколи не завершує виконання
Я намагаюся запустити SVR за допомогою scikit learn (python) на навчальному наборі даних, що має 595605 рядків та 5 стовпців (функції) та тестовий набір даних, що має 397070 рядків. Дані попередньо оброблені та затверджені. Я можу успішно запустити тестові приклади, але, виконуючи за допомогою мого набору даних і дозволяючи йому …

1
Різниця між isna () та isnull () у пандах
Я використовую панди вже досить давно. Але я не розумію, в чому різниця між пандами isna()та isnull()в них. І, що ще важливіше, який з них використовувати для виявлення відсутніх значень у фреймі даних. Яка основна відмінність того, як значення виявляється як або, naчи null?

6
рядки як особливості в дереві рішень / випадковому лісі
Я створюю деякі проблеми щодо застосування дерева рішень / випадкового лісу. Я намагаюся встановити проблему, яка має в якості функцій цифри, а також рядки (наприклад, назва країни). Тепер бібліотека scikit-learn приймає лише параметри як параметри, але я хочу вставити рядки так само, як вони несуть значну кількість знань. Як мені …

8
Виявлення аномалії з відкритим кодом у Python
Передумови проблеми: я працюю над проектом, який включає файли журналів, аналогічні тим, які знаходяться в просторі моніторингу ІТ (наскільки я найкраще розумію ІТ-простір). Ці файли журналів - це дані часового ряду, впорядковані в сотні / тисячі рядків різних параметрів. Кожен параметр є числовим (поплавком) і існує значення нетривіального / не …

2
Навчання RNN з прикладами різної тривалості в Керасі
Я намагаюся почати вивчати RNN, і я використовую Keras. Я розумію основні передумови шарів ванільного RNN та LSTM, але у мене виникають проблеми з розумінням певного технічного моменту для тренувань. У документації про керас сказано, що вхід до шару RNN повинен мати форму (batch_size, timesteps, input_dim). Це говорить про те, …
61 python  keras  rnn  training 

8
Кластеризація географічних координат (lat, довгі пари)
Який правильний підхід та алгоритм кластеризації для кластеризації геолокацій? Я використовую наступний код для кластеризації геолокаційних координат: import numpy as np import matplotlib.pyplot as plt from scipy.cluster.vq import kmeans2, whiten coordinates= np.array([ [lat, long], [lat, long], ... [lat, long] ]) x, y = kmeans2(whiten(coordinates), 3, iter = 20) plt.scatter(coordinates[:,0], coordinates[:,1], …

9
Інструменти та протокол для відтворення даних з використанням Python
Я працюю над проектом з вивчення даних за допомогою Python. Проект має кілька етапів. Кожен етап включає прийняття набору даних, використання сценаріїв Python, допоміжних даних, конфігурації та параметрів та створення іншого набору даних. Я зберігаю код у git, щоб ця частина була прикрита. Я хотів би почути про: Інструменти для …

4
Нейронні мережі: яку функцію витрат використовувати?
Я використовую TensorFlow для експериментів з нейронними мережами. Хоча зараз я провів досить багато експериментів (XOR-Problem, MNIST, деякі регресії, ...), я борюся з вибором "правильної" функції витрат для конкретних проблем, тому що в цілому мене можна вважати початківцем. Перед тим, як прийти до TensorFlow, я самостійно зашифрував декілька повністю пов'язаних …

7
ValueError: Вхід містить NaN, нескінченність або занадто велике значення для dtype ('float32')
Я отримав ValueError при прогнозуванні даних тестів за допомогою моделі RandomForest. Мій код: clf = RandomForestClassifier(n_estimators=10, max_depth=6, n_jobs=1, verbose=2) clf.fit(X_fit, y_fit) df_test.fillna(df_test.mean()) X_test = df_test.values y_pred = clf.predict(X_test) Помилка: ValueError: Input contains NaN, infinity or a value too large for dtype('float32'). Як знайти погані значення в тестовому наборі даних? Крім …

3
Розрахунок та візуалізація матриці кореляції з пандами
У мене є кадр даних панди з декількома записами, і я хочу обчислити співвідношення між доходами певного типу магазинів. Існує ряд магазинів з даними про доходи, класифікацією сфери діяльності (театр, магазини тканин, продукти харчування ...) та іншими даними. Я спробував створити новий кадр даних і вставити стовпчик із доходом усіх …

3
Multi GPU в керах
Як ви можете запрограмувати в бібліотеці керас (або тензорфлоу) для навчання розділів на декількох графічних процесорах? Скажімо, ви знаходитесь в екземплярі Amazon ec2, який має 8 графічних процесорів, і ви хочете використовувати їх для швидшого тренування, але ваш код призначений лише для одного процесора або GPU.

5
Відкриття файлу об'ємом 20 ГБ для аналізу з пандами
Зараз я намагаюся відкрити файл з пандами та пітоном для цілей машинного навчання, для мене було б ідеально мати їх у DataFrame. Тепер файл має 18 Гб, а моя оперативна пам’ять - 32 ГБ, але я постійно отримую помилки в пам'яті. З вашого досвіду це можливо? Якщо ви не знаєте …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.