Мені потрібно прочитати файл у пандонах python наступного типу
"column1","column2","column3","column4"
"value1","value,1","value2","value3"
"value5","value6","value7","value8"
"value32","value21","value,31","value,44"
Я спробував використовувати
file1 = pd.read_csv('sample.txt',sep=',\s+',skipinitialspace=True,quoting=csv.QUOTE_ALL,engine=python)
це говорить щось на зразок ValueErro (Очікується, що деякі рядки отримали щось інше) не зовсім так
Мені потрібно прочитати великий CSV-файл такого типу і завантажити його в рамку даних. які зміни я повинен зробити, щоб правильно її прочитати.
" "
- вам потрібно очистити вихідний файл перед обробкою. Якщо подвійні лапки залишаються разом, оскільки ""
це також не повинно бути проблемою, оскільки воно відповідає стандарту CSV, воно викликає подвійні цитати, що уникнули. Якщо між подвійними лапками є пробіл, запустіть sed -r 's/\"\s+\"/\"\"/g' src.csv >cleared.csv
перед тим, як годувати CSV пандами. Це видалить простір між цитатами або запустіть, sed -r 's/\"\s+\"//g' src.csv >cleared.csv
щоб повністю видалити внутрішні цитати
sep=',\s*'
замість цьогоsep=',\s+'
. Що стосується кома всередині котируваного значення (як це стосується"value,31"
), воно відповідає rfc4180 і не повинно бути проблемою