Є основні речі, які ви можете зробити з будь-яким набором даних:
- Валідація значень (Допуск довжини рядка, тип даних, маски форматування, необхідна наявність поля тощо)
- Правильність діапазону (чи відповідають ці, здавалося б, правильні дані, у межах очікуваного діапазону значень)
- Попередня обробка (якщо я спробую проаналізувати ці дані, чи можу я виконувати основи, не стикаючись з помилками)
- Попередня звітність (запустіть звіт проти набору даних та переконайтеся, що він проходить перевірку на безпечність)
- Визначення нуля проти порожнього та нуля проти Неправильного для будь-якого стовпця даних
- Ідентифікація даних, які не мають місця (числові значення різко відрізняються від інших значень у наборі даних, рядкові значення, схожі на те, що вони можуть бути неправильно написані тощо)
- Усунення або виправлення явно помилкових даних
Розуміння даних для виявлення помилок - це зовсім інша гра з м'ячем, і це дуже важливо.
Наприклад, ви можете мати правило, яке говорить про те, що серійний номер повинен бути присутнім у заданому наборі даних, і що серійний номер повинен бути буквено-цифровим з максимальною довжиною рядка 255 та мінімальною довжиною рядка 5.
Переглядаючи дані, ви можете виявити одне конкретне значення серійного номера, яке читається "PLEASE ENTER SERIAL"
Це абсолютно дійсне, але неправильне.
Це щось очевидне, але, скажімо, ви обробляєте дані про запаси, і у вас був діапазон цін на 1000 акцій, який був нижчим за долар. Дуже багато людей не знають, що настільки низька ціна акцій є недійсною на деяких біржах і цілком діє на інших. Вам потрібні знання про ваші дані, щоб зрозуміти, чи є те, що ви бачите, проблематичним чи ні.
У реальному світі не завжди є розкіш глибокого розуміння своїх даних.
Те, як я уникаю проблем, - використовуючи людей навколо мене. Що стосується невеликих наборів даних, я можу попросити когось переглянути ці дані повністю. Для великих - більш доцільним є витяг набору випадкових вибірок і прохання когось зробити перевірку достовірності даних.
Крім того, важливо ставити під сумнів джерело даних та наскільки добре цьому джерелу даних можна довіряти. У мене часто є декілька суперечливих джерел даних і ми створюємо правила для визначення "джерела істини". Іноді один набір даних має чудові дані в даному аспекті, але інші набори даних є більш сильними в інших областях.
Дані, введені вручну, - це зазвичай те, до чого я найбільше скептично ставлюсь, але в деяких випадках він є сильнішим за все, що можна отримати за допомогою автоматизації.