Наука про дані

Питання та відповіді для фахівців з науки про дані, фахівців з машинного навчання та тих, хто зацікавлений у вивченні даної області


11
SVM за допомогою scikit learn працює нескінченно і ніколи не завершує виконання
Я намагаюся запустити SVR за допомогою scikit learn (python) на навчальному наборі даних, що має 595605 рядків та 5 стовпців (функції) та тестовий набір даних, що має 397070 рядків. Дані попередньо оброблені та затверджені. Я можу успішно запустити тестові приклади, але, виконуючи за допомогою мого набору даних і дозволяючи йому …

5
Чому функції витрат використовують квадратну помилку?
Я тільки починаю з машинного навчання, і до цього часу я мав справу з лінійною регресією на одній змінній. Я дізнався, що існує гіпотеза, яка є: hθ(x)=θ0+θ1xhθ(x)=θ0+θ1xh_\theta(x)=\theta_0+\theta_1x Щоб дізнатися хороші значення параметрів та ми хочемо мінімізувати різницю між обчисленим результатом та фактичним результатом наших тестових даних. Отже ми віднімаємоθ 1θ0θ0\theta_0θ1θ1\theta_1 …

11
Чому люди віддають перевагу Pandas перед SQL?
Я використовую SQL з 1996 року, тому я можу бути упередженим. Я широко використовував MySQL та SQLite 3, але також використовував Microsoft SQL Server та Oracle. Переважна більшість операцій, які я бачив з Pandas, можна простіше виконати за допомогою SQL. Це включає фільтрацію набору даних, вибір конкретних стовпців для відображення, …
69 pandas  sql 

1
Різниця між isna () та isnull () у пандах
Я використовую панди вже досить давно. Але я не розумію, в чому різниця між пандами isna()та isnull()в них. І, що ще важливіше, який з них використовувати для виявлення відсутніх значень у фреймі даних. Яка основна відмінність того, як значення виявляється як або, naчи null?

8
Коли я повинен використовувати домішки Джині на відміну від збільшення інформації?
Чи може хтось практично пояснити обґрунтування нечистоти Джині проти отримання інформації (на основі ентропії)? Який показник краще використовувати в різних сценаріях під час використання дерев рішень?

8
Вчений даних проти інженера машинного навчання
Які існують відмінності між "науковцем даних" та "інженером машинного навчання"? За останній рік або близько того "інженер машинного навчання" почав проявлятись у посадах. Особливо це помітно в Сан-Франциско, де, можливо, звідси походить термін "вчений даних". В один момент "вчений даних" наздогнав "статистику", і мені цікаво, чи те саме зараз поволі …

5
Прогнозування часових рядів за допомогою ARIMA проти LSTM
Проблема, з якою я маю справу, - передбачення значень часових рядів. Я дивлюся по одному часовому ряду і, спираючись, наприклад, на 15% вхідних даних, я хотів би передбачити його майбутні значення. Поки що я натрапив на дві моделі: LSTM (довготривала короткочасова пам'ять; клас періодичних нейронних мереж) АРІМА Я спробував обидва …

3
Переваги AUC порівняно зі стандартною точністю
Я починав заглядати в область під кривою (AUC) і трохи розгублений щодо її корисності. Коли мені вперше пояснили, AUC здавався чудовим показником продуктивності, але в ході мого дослідження я виявив, що деякі заявляють, що його перевага переважно незначна, оскільки найкраще ловити "щасливі" моделі з високими стандартними вимірюваннями точності та низьким …

1
Як отримати кореляцію між двома категоріальною змінною та категоріальною змінною та безперервною змінною?
Я будую регресійну модель, і мені потрібно розрахувати нижче, щоб перевірити наявність кореляцій Кореляція між двома багаторівневими категоричними змінними Кореляція між багаторівневою категоріальною змінною та безперервною змінною VIF (коефіцієнт дисперсії дисперсії) для багаторівневих категоричних змінних Я вважаю неправильним використання коефіцієнта кореляції Пірсона для вищезазначених сценаріїв, оскільки Пірсон працює лише для …

6
рядки як особливості в дереві рішень / випадковому лісі
Я створюю деякі проблеми щодо застосування дерева рішень / випадкового лісу. Я намагаюся встановити проблему, яка має в якості функцій цифри, а також рядки (наприклад, назва країни). Тепер бібліотека scikit-learn приймає лише параметри як параметри, але я хочу вставити рядки так само, як вони несуть значну кількість знань. Як мені …

3
Зворотний шар через шари максимального пулу?
Це невелике концептуальне питання, яке мене натякає на деякий час: Як ми можемо розповсюджуватися через шар максимального об'єднання в нейронній мережі? Я натрапив на шари максимального об'єднання, переглядаючи цей підручник для бібліотеки nn Torch 7. Бібліотека резюмує обчислення градієнта і передачі вперед для кожного шару глибокої мережі. Я не розумію, …

8
Виявлення аномалії з відкритим кодом у Python
Передумови проблеми: я працюю над проектом, який включає файли журналів, аналогічні тим, які знаходяться в просторі моніторингу ІТ (наскільки я найкраще розумію ІТ-простір). Ці файли журналів - це дані часового ряду, впорядковані в сотні / тисячі рядків різних параметрів. Кожен параметр є числовим (поплавком) і існує значення нетривіального / не …

2
Навчання RNN з прикладами різної тривалості в Керасі
Я намагаюся почати вивчати RNN, і я використовую Keras. Я розумію основні передумови шарів ванільного RNN та LSTM, але у мене виникають проблеми з розумінням певного технічного моменту для тренувань. У документації про керас сказано, що вхід до шару RNN повинен мати форму (batch_size, timesteps, input_dim). Це говорить про те, …
61 python  keras  rnn  training 


Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.