У попередньому запитанні я запитав про інструменти для редагування файлів CSV .
Гевін посилається на коментар до R Help від Duncan Murdoch, припускаючи, що формат обміну даними - більш надійний спосіб зберігання даних, ніж CSV.
Для деяких додатків потрібна спеціальна система управління базами даних. Однак для невеликих масштабів аналізу даних здається більш підходящим.
Розглянемо наступні критерії оцінки формату файлу:
- надійність : введені дані повинні залишатися вірними тому, що було введено; дані повинні відкриватися послідовно в різному програмному забезпеченні;
- просто : було б непогано, якби формат файлу було легко зрозуміти і в ідеалі читати за допомогою простого текстового редактора; слід легко створити просту програму для читання та запису формату.
- відкрито : формат повинен бути відкритим
- сумісна : формат файлу повинен підтримуватися багатьма системами
Я знаходжу, що формати значень, розділених вкладками та комами, не відповідають вимогам критерію надійності. Хоча я думаю, що я можу звинуватити програми імпорту та експорту, а не формат файлів. Мені часто доводиться вносити невеликі корективи в параметри
read.table
, щоб не допустити, щоб якийсь дивний персонаж порушив завантаження кадру даних.
Запитання
- Який формат файлу найкраще відповідає цим потребам?
- Чи краща альтернатива формату обміну даними? чи у нього є свої проблеми?
- Чи є якийсь інший формат, який є кращим?
- Чи я несправедливо оцінюю TSV та CSV? Чи є простий набір порад щодо роботи з такими файлами, які роблять формат файлу більш надійним?
write.DIF()
тому я боюся трохи односторонньої вулиці.