Як можна очікувати від Хедлі, його стаття містить чітке визначення акуратних даних, і я погоджуюся майже з усім, що є в його статті, і я вважаю, що це не тільки для "професіоналів даних". Однак деякі моменти, які він робить, виправити порівняно легко (наприклад, з пакетами, якими він є автор), якщо уникнути деяких більш фундаментальних проблем. Більшість цих проблем є результатом широкого використання Excel. Excel є цінним інструментом і має свої достоїнства, але деякі його засоби призводять до проблем для аналітиків даних.
Деякі моменти (з мого досвіду):
- Деяким людям подобаються барвисті електронні таблиці та широко використовують параметри форматування. Це все добре, якщо це допоможе їм упорядкувати свої дані та підготувати таблиці для презентації. Однак це небезпечно, якщо колір клітини насправді кодує дані. Втратити ці дані легко і дуже важко отримати такі дані, імпортовані в статистичне програмне забезпечення (наприклад, дивіться це запитання щодо переповнення стека).
- Іноді я отримую якісь добре відформатовані дані (після того, як я розповів людям, як їх підготувати), але, незважаючи на те, що вони просять використовувати виділений стовпець або окремий файл для коментарів, вони вирішують помістити коментар у стовпчик значення. Мало того, що мені потрібно особливо імпортувати цей стовпець під час імпорту даних, але головна проблема полягає в тому, що мені потрібно прокрутити всю таблицю, щоб побачити такі коментарі (що зазвичай не робив би). Це стає ще гірше, якщо вони використовують засоби коментування Excel.
- Електронні таблиці з декількома таблицями в них, декількома заголовками рядків або підключеними клітинками призводять до ручної роботи з підготовки їх до імпорту в статистичне програмне забезпечення. Хороші аналітики даних зазвичай не насолоджуються подібною ручною роботою.
- Ніколи, ніколи не ховайте стовпці в Excel. Якщо вони не потрібні, видаліть їх. Якщо вони потрібні, покажіть їх.
- xls та його нащадки не є підходящими форматами файлів для обміну даними з іншими особами або їх архівації. Формули оновлюються, коли файл відкривається, і різні версії Excel можуть обробляти файли по-різному. Я замість цього рекомендую простий файл CSV, оскільки майже все програмне забезпечення, що стосується даних, може імпортувати це (навіть Excel), і можна очікувати, що це не зміниться незабаром. Однак майте на увазі, що Excel округляє до видимих цифр при збереженні в CSV (тим самим відкидаючи точність).
- Якщо ви хочете полегшити життя іншим, дотримуйтесь принципів, наведених у статті Хедлі. Складіть стовпчик значень для кожної колони змінної та факторів, що визначають шари.
Напевно, є кілька додаткових моментів, які мені не спадали на думку.