Запитання з тегом «data-cleaning»

4
Очищення даних невідповідного формату в R?
Я часто маю справу з брудними даними опитування, які вимагають багато очищення, перш ніж стати статистикою. Я раніше робив це "вручну" в Excel, іноді використовуючи формули Excel, а іноді перевіряючи записи окремо. Я почав робити все більше і більше цих завдань, написавши сценарії, щоб виконати їх в R, що було …
16 r  data-cleaning 

1
Найсучасніший у дедуплікації
Які найсучасніші методи у дедуплікації записів? Дедуплікацію також іноді називають: зв'язок запису, роздільна здатність сутності, дозвіл ідентичності, злиття / очищення. Я знаю, наприклад, про CBLOCK [1]. Буду вдячний, якщо відповіді включали також посилання на існуюче програмне забезпечення, що реалізує методи. Я знаю, наприклад, що Mahout реалізує навіс-кластеризацію . Є також …

3
Який найкращий спосіб змінити / змінити дані?
Я науковий співробітник лабораторії (волонтер). Я та мала група отримали завдання щодо аналізу даних для набору даних, отриманих із великого дослідження. На жаль, дані були зібрані за допомогою якогось інтернет-додатка, і вони не були запрограмовані для виведення даних у найбільш зручній формі. На малюнках нижче зображено основну проблему. Мені сказали, …
12 r  excel  data-cleaning 

3
Автоматичне очищення даних
Поширена проблема ML - це низька якість даних: помилки у значеннях значень, неправильно класифіковані екземпляри тощо тощо. Один із способів вирішення цієї проблеми - це вручну пройти дані та перевірити, але чи є інші методи? (Гадаю, що є!) Які з них краще і чому?

2
Створення "демонстраційних" даних з реальних даних: маскування без викривлення
(Я не маю реальної ідеї, з чим позначити це, тому що я не статистик, і я не знаю, у яке поле це потрапляє. Сміливо додайте більш підходящі теги.) Я працюю в компанії, яка виробляє програмне забезпечення для аналізу даних, і нам потрібен гідний набір даних для тестування та демонстрації нашого …
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.