Коли я працюю над проектами з аналізу даних, я часто зберігаю дані у файлах даних, розміщених комами або вкладками (CSV, TSV). Хоча дані часто належать до спеціалізованої системи управління базами даних. Для багатьох моїх заявок це було б надмірним речей.
Я можу редагувати файли CSV та TSV в Excel (або, мабуть, іншій програмі електронних таблиць). Це має переваги:
- електронні таблиці полегшують введення даних
Також є кілька проблем:
- Робота з файлами CSV та TSV призводить до широкого спектру попереджувальних повідомлень про те, що різні функції втрачаються, і як збережеться лише активний аркуш тощо. Таким чином, це прикро, якщо ви просто хочете відкрити файл і внести невеликі зміни.
- Це робить багато "нібито розумних" перетворень. Наприклад, якщо ви введете 12/3, він подумає, що ви хочете ввести побачення. ОНОВЛЕННЯ: Я мав би зазначити, що приклад дати - лише один із багатьох прикладів; Здається, більшість проблем пов'язані з невідповідним конвертацією. Зокрема, текстові поля, схожі на цифри чи дати, викликають проблеми.
Крім того, я міг би працювати безпосередньо з текстовим файлом у стандартному текстовому редакторі. Це гарантує, що те, що я ввожу, - це те, що записується. Однак це дуже незручний спосіб введення даних (стовпці не вирівнюються; важко ввести дані просто у кілька комірок; тощо).
Питання
- Яка хороша стратегія роботи з файлами даних CSV або TSV? тобто яка стратегія полегшує введення та маніпулювання даними, одночасно гарантуючи, що те, що ви вводите, насправді інтерпретується правильно?