Запитання з тегом «dataset»

Запити щодо наборів даних є поза темою на цьому сайті. Використовуйте цей тег для запитань щодо створення, обробки або підтримки наборів даних.

2
Настанови щодо забезпечення якості та контролю якості (QA / QC) для бази даних
Фон Я контролюю введення даних з первинної літератури в базу даних . Процес введення даних схильний до помилок, особливо тому, що користувачі повинні інтерпретувати експериментальний дизайн, витягувати дані з графіки та таблиць та трансформувати результати в стандартизовані одиниці. Дані вводяться в базу даних MySQL через веб-інтерфейс. Поки що було включено …

10
Набори даних у соціальних мережах
Заблокований . Це питання та його відповіді заблоковано, оскільки це питання поза темою, але має історичне значення. Наразі не приймає нових відповідей чи взаємодій. Я шукаю набори даних у соціальній мережі (twitter, friendfeed, facebook, lastfm тощо) для завдань класифікації, бажано у форматі arff. Мої пошуки через UCI та Google досі …

2
Обчислення 95-го перцентиля: Порівняння підходів нормального розподілу, R квантілі та Excel
Я намагався обчислити 95-й процентиль на наступному наборі даних. Я натрапив на кілька онлайн-довідок про це. Підхід 1: На основі вибіркових даних Перший один говорить мені , для отримання TOP 95 Percentнабору даних , а потім виберіть MINабо AVGз результуючого набору. Це робиться для наступного набору даних: AVG: 29162 MIN: …
17 r  dataset  quantiles  sql 

6
Де знайти великий текстовий корпус? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 6 років тому . Я шукаю великий (> 1000) текстовий корпус для завантаження. Переважно зі світовими новинами чи якимись репортажами . Я знайшов лише один із …
16 dataset 

5
Який вплив має підвищення навчальних даних на загальну точність системи?
Чи може хтось підсумувати для мене можливі приклади, при яких ситуаціях збільшення даних про тренінг покращує загальну систему? Коли ми виявимо, що додавання більшої кількості даних про навчання може призвести до надмірних даних і не дати належної точності даних тесту? Це дуже неспецифічне запитання, але якщо ви хочете відповісти на …

4
Які хороші набори даних для ілюстрації окремих аспектів статистичного аналізу?
Я усвідомлюю, що це суб'єктивно, але я думав, що було б непогано поговорити про наші улюблені набори даних та те, що, на нашу думку, робить їх цікавими. Існує велика кількість даних, і що з усіма API (наприклад, Datamob ) поряд з класичними наборами даних (наприклад, R дані ), я думаю, …
16 dataset 

5
Чи краще робити дослідницький аналіз даних лише на базі даних тренувань?
Я роблю дослідницький аналіз даних (EDA) на наборі даних. Тоді я виберу деякі функції, щоб передбачити залежну змінну. Питання: Чи варто робити ЗНО на моєму навчальному наборі даних? Або я повинен приєднатися до наборів даних про навчання та тестування разом, а потім робити ЗНО на них обох та вибирати функції …

4
Безкоштовний хостинг даних для громадських інтересів? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 4 роки тому . У мене є погодинний та щоденний звіт про температуру для багатьох станцій на http://data.barrycarter.info/ Я закликаю людей завантажувати його, але, на 6.6G, …
14 dataset 

3
Як зробити розширення даних та розділити перевірку поїздів?
Я роблю класифікацію зображень за допомогою машинного навчання. Припустимо, у мене є деякі навчальні дані (зображення), і я розділяю їх на навчальні та валідаційні набори. І я також хочу збільшити дані (створити нові зображення з оригінальних) випадковими обертаннями та шумопоглинанням. Збільшення виконується в автономному режимі. Який правильний спосіб зробити додавання …

6
Швидкі способи R отримати перший ряд кадру даних, згрупований за ідентифікатором [закритий]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Іноді мені потрібно отримати лише перший рядок набору даних, згрупований за ідентифікатором, як при пошуку віку та статі, коли на кожного людини …
14 r  dataset  aggregation  plyr 

2
Яким чином перехресне підтвердження k-кратного розміщення вписується в контекст навчальних / перевірочних / тестових наборів?
Моє головне питання - це намагання зрозуміти, як перехресна перевірка k-кратна вписується в контекст набору навчальних / валідаційних / тестувальних наборів (якщо вона взагалі відповідає такому контексту). Зазвичай люди говорять про розбиття даних на навчальний, валідаційний та тестовий набір - скажімо, у співвідношенні 60/20/20 за курс Ендрю Нґ - при …

4
Де знайти вихідні дані про клінічні випробування? [зачинено]
Зачинено. Це питання поза темою . Наразі відповіді не приймаються. Хочете вдосконалити це питання? Оновіть питання, щоб воно було тематичним для перехресної перевірки. Закрито 2 роки тому . Я хочу використати необґрунтовані дані про клінічні випробування для іспиту моїх магістрів на кінець року. Ці дані можуть мати справу з будь-якою …


4
Виділення двох сукупностей від вибірки
Я намагаюся відокремити дві групи значень з одного набору даних. Я можу припустити, що одна з популяцій зазвичай розподілена і становить щонайменше половину розміру вибірки. Значення другого є і нижчими, або вищими, ніж значення першого (розподіл невідомий). Що я намагаюся зробити - це знайти верхню і нижню межі, які охоплювали …

4
Найкращі способи агрегації та аналізу даних
Нещодавно почавши навчати себе машинного навчання та аналізу даних, я потрапляю в цегляну стіну щодо необхідності створення та запиту великих наборів даних. Я хотів би взяти дані, які я зібрав у своєму професійному та особистому житті, та проаналізувати їх, але я не впевнений у найкращому способі зробити наступне: Як я …

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.