u '\ ufeff' у рядку Python

153

Я отримую помилку із наступним малюнком:

UnicodeEncodeError: 'ascii' codec can't encode character u'\ufeff' in position 155: ordinal not in range(128)

Не впевнений, що u'\ufeff'це таке, він з’являється, коли я перебираю веб-сторінки. Як можна виправити ситуацію? Метод .replace()рядків не працює на ньому.

python unicode utf-8

— Джеймс Халлен
джерело

6

Звідки цей вхід? Що ви намагаєтеся зробити? Будь ласка, включіть свій код Python.

7

До речі, я вважаю, що .replace () працює в сучасному python, якщо я пам'ятаю індикатор unicode: s.replace (u '\ ufeff', '')

— Doug Bradshaw

@DougBradshaw, коли ти кажеш "сучасний пітон", ти маєш на увазі 2.7+ чи 3.0+?

— teewuane

Гарна думка. Значення, 2,7+.

— Doug Bradshaw

184

Символ Unicode U+FEFFє позначкою порядку байтів, або BOM, і використовується для визначення різниці між кодуванням UTF-16 великого та малого рівня. Якщо розшифрувати веб-сторінку за допомогою правильного кодека, Python видалить її для вас. Приклади:

#!python2
#coding: utf8
u = u'ABC'
e8 = u.encode('utf-8')        # encode without BOM
e8s = u.encode('utf-8-sig')   # encode with BOM
e16 = u.encode('utf-16')      # encode with BOM
e16le = u.encode('utf-16le')  # encode without BOM
e16be = u.encode('utf-16be')  # encode without BOM
print 'utf-8     %r' % e8
print 'utf-8-sig %r' % e8s
print 'utf-16    %r' % e16
print 'utf-16le  %r' % e16le
print 'utf-16be  %r' % e16be
print
print 'utf-8  w/ BOM decoded with utf-8     %r' % e8s.decode('utf-8')
print 'utf-8  w/ BOM decoded with utf-8-sig %r' % e8s.decode('utf-8-sig')
print 'utf-16 w/ BOM decoded with utf-16    %r' % e16.decode('utf-16')
print 'utf-16 w/ BOM decoded with utf-16le  %r' % e16.decode('utf-16le')

Зауважте, що EF BB BFце BOM, кодований UTF-8. Він не потрібен для UTF-8, але служить лише підписом (як правило, у Windows).

Вихід:

utf-8     'ABC'
utf-8-sig '\xef\xbb\xbfABC'
utf-16    '\xff\xfeA\x00B\x00C\x00'    # Adds BOM and encodes using native processor endian-ness.
utf-16le  'A\x00B\x00C\x00'
utf-16be  '\x00A\x00B\x00C'

utf-8  w/ BOM decoded with utf-8     u'\ufeffABC'    # doesn't remove BOM if present.
utf-8  w/ BOM decoded with utf-8-sig u'ABC'          # removes BOM if present.
utf-16 w/ BOM decoded with utf-16    u'ABC'          # *requires* BOM to be present.
utf-16 w/ BOM decoded with utf-16le  u'\ufeffABC'    # doesn't remove BOM if present.

Зауважте, що utf-16кодек вимагає присутності BOM або Python не дізнається, чи дані є великими або маловимірими.

— Марк Толонен
джерело

201

Я наткнувся на це на Python 3 і знайшов це питання (і рішення ). Відкриваючи файл, Python 3 підтримує ключове слово кодування, щоб автоматично обробляти кодування.

Без цього BOM включається до результату читання:

>>> f = open('file', mode='r')
>>> f.read()
'\ufefftest'

Надавши правильне кодування, BOM опускається в результаті:

>>> f = open('file', mode='r', encoding='utf-8-sig')
>>> f.read()
'test'

Всього мої 2 копійки.

— siebz0r
джерело

13

Дякую, це фактичне рішення і має бути прийнятою відповіддю. Хоча це чудове розуміння того, чому струна є, більшість людей, які приїжджають сюди, шукають прямого рішення, і це все.

— неврино

3

Якщо ця проблема була з csv DictReader, який читає файл csv, збережений з Excel.

— LArntz

1

Так, Excel (навіть "csv", породжений Excel) справді - гарячий безлад.

— osprey

4

Цей символ є BOM або "Byte Order Mark". Зазвичай він отримується як кілька перших байтів файлу, що розповідає про те, як інтерпретувати кодування решти даних. Ви можете просто видалити персонаж для продовження. Хоча, оскільки помилка говорить про те, що ви намагалися перетворити на "ascii", вам, мабуть, слід вибрати інше кодування для того, що ви намагалися зробити.

— swstephe
джерело

4

Вміст, який ви скреблите, кодується в unicode, а не в тексті ascii, і ви отримуєте персонаж, який не перетворюється в ascii. Правильний "переклад" залежить від того, якою вважалася оригінальна веб-сторінка. Сторінка unicode Python дає змогу дізнатися, як вона працює.

Ви намагаєтеся роздрукувати результат або вставити його у файл? Помилка говорить про те, що він записує дані, що викликають проблему, а не читає їх. Це питання є гарним місцем для пошуку виправлень.

— теодокс
джерело

0

Ось на основі відповіді Марка Толонена. Рядок включав різні мови слова 'test', який розділений на '|', тому ви можете побачити різницю.

u = u'ABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'
e8 = u.encode('utf-8')        # encode without BOM
e8s = u.encode('utf-8-sig')   # encode with BOM
e16 = u.encode('utf-16')      # encode with BOM
e16le = u.encode('utf-16le')  # encode without BOM
e16be = u.encode('utf-16be')  # encode without BOM
print('utf-8     %r' % e8)
print('utf-8-sig %r' % e8s)
print('utf-16    %r' % e16)
print('utf-16le  %r' % e16le)
print('utf-16be  %r' % e16be)
print()
print('utf-8  w/ BOM decoded with utf-8     %r' % e8s.decode('utf-8'))
print('utf-8  w/ BOM decoded with utf-8-sig %r' % e8s.decode('utf-8-sig'))
print('utf-16 w/ BOM decoded with utf-16    %r' % e16.decode('utf-16'))
print('utf-16 w/ BOM decoded with utf-16le  %r' % e16.decode('utf-16le'))

Ось пробний запуск:

>>> u = u'ABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'
>>> e8 = u.encode('utf-8')        # encode without BOM
>>> e8s = u.encode('utf-8-sig')   # encode with BOM
>>> e16 = u.encode('utf-16')      # encode with BOM
>>> e16le = u.encode('utf-16le')  # encode without BOM
>>> e16be = u.encode('utf-16be')  # encode without BOM
>>> print('utf-8     %r' % e8)
utf-8     b'ABCtest\xce\xb2\xe8\xb2\x9d\xe5\xa1\x94\xec\x9c\x84m\xc3\xa1sb\xc3\xaata|test|\xd8\xa7\xd8\xae\xd8\xaa\xd8\xa8\xd8\xa7\xd8\xb1|\xe6\xb5\x8b\xe8\xaf\x95|\xe6\xb8\xac\xe8\xa9\xa6|\xe3\x83\x86\xe3\x82\xb9\xe3\x83\x88|\xe0\xa4\xaa\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb7\xe0\xa4\xbe|\xe0\xb4\xaa\xe0\xb4\xb0\xe0\xb4\xbf\xe0\xb4\xb6\xe0\xb5\x8b\xe0\xb4\xa7\xe0\xb4\xa8|\xd7\xa4\xd6\xbc\xd7\xa8\xd7\x95\xd7\x91\xd7\x99\xd7\xa8\xd7\x9f|ki\xe1\xbb\x83m tra|\xc3\x96l\xc3\xa7ek|'
>>> print('utf-8-sig %r' % e8s)
utf-8-sig b'\xef\xbb\xbfABCtest\xce\xb2\xe8\xb2\x9d\xe5\xa1\x94\xec\x9c\x84m\xc3\xa1sb\xc3\xaata|test|\xd8\xa7\xd8\xae\xd8\xaa\xd8\xa8\xd8\xa7\xd8\xb1|\xe6\xb5\x8b\xe8\xaf\x95|\xe6\xb8\xac\xe8\xa9\xa6|\xe3\x83\x86\xe3\x82\xb9\xe3\x83\x88|\xe0\xa4\xaa\xe0\xa4\xb0\xe0\xa5\x80\xe0\xa4\x95\xe0\xa5\x8d\xe0\xa4\xb7\xe0\xa4\xbe|\xe0\xb4\xaa\xe0\xb4\xb0\xe0\xb4\xbf\xe0\xb4\xb6\xe0\xb5\x8b\xe0\xb4\xa7\xe0\xb4\xa8|\xd7\xa4\xd6\xbc\xd7\xa8\xd7\x95\xd7\x91\xd7\x99\xd7\xa8\xd7\x9f|ki\xe1\xbb\x83m tra|\xc3\x96l\xc3\xa7ek|'
>>> print('utf-16    %r' % e16)
utf-16    b"\xff\xfeA\x00B\x00C\x00t\x00e\x00s\x00t\x00\xb2\x03\x9d\x8cTX\x04\xc7m\x00\xe1\x00s\x00b\x00\xea\x00t\x00a\x00|\x00t\x00e\x00s\x00t\x00|\x00'\x06.\x06*\x06(\x06'\x061\x06|\x00Km\xd5\x8b|\x00,nf\x8a|\x00\xc60\xb90\xc80|\x00*\t0\t@\t\x15\tM\t7\t>\t|\x00*\r0\r?\r6\rK\r'\r(\r|\x00\xe4\x05\xbc\x05\xe8\x05\xd5\x05\xd1\x05\xd9\x05\xe8\x05\xdf\x05|\x00k\x00i\x00\xc3\x1em\x00 \x00t\x00r\x00a\x00|\x00\xd6\x00l\x00\xe7\x00e\x00k\x00|\x00"
>>> print('utf-16le  %r' % e16le)
utf-16le  b"A\x00B\x00C\x00t\x00e\x00s\x00t\x00\xb2\x03\x9d\x8cTX\x04\xc7m\x00\xe1\x00s\x00b\x00\xea\x00t\x00a\x00|\x00t\x00e\x00s\x00t\x00|\x00'\x06.\x06*\x06(\x06'\x061\x06|\x00Km\xd5\x8b|\x00,nf\x8a|\x00\xc60\xb90\xc80|\x00*\t0\t@\t\x15\tM\t7\t>\t|\x00*\r0\r?\r6\rK\r'\r(\r|\x00\xe4\x05\xbc\x05\xe8\x05\xd5\x05\xd1\x05\xd9\x05\xe8\x05\xdf\x05|\x00k\x00i\x00\xc3\x1em\x00 \x00t\x00r\x00a\x00|\x00\xd6\x00l\x00\xe7\x00e\x00k\x00|\x00"
>>> print('utf-16be  %r' % e16be)
utf-16be  b"\x00A\x00B\x00C\x00t\x00e\x00s\x00t\x03\xb2\x8c\x9dXT\xc7\x04\x00m\x00\xe1\x00s\x00b\x00\xea\x00t\x00a\x00|\x00t\x00e\x00s\x00t\x00|\x06'\x06.\x06*\x06(\x06'\x061\x00|mK\x8b\xd5\x00|n,\x8af\x00|0\xc60\xb90\xc8\x00|\t*\t0\t@\t\x15\tM\t7\t>\x00|\r*\r0\r?\r6\rK\r'\r(\x00|\x05\xe4\x05\xbc\x05\xe8\x05\xd5\x05\xd1\x05\xd9\x05\xe8\x05\xdf\x00|\x00k\x00i\x1e\xc3\x00m\x00 \x00t\x00r\x00a\x00|\x00\xd6\x00l\x00\xe7\x00e\x00k\x00|"
>>> print()

>>> print('utf-8  w/ BOM decoded with utf-8     %r' % e8s.decode('utf-8'))
utf-8  w/ BOM decoded with utf-8     '\ufeffABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'
>>> print('utf-8  w/ BOM decoded with utf-8-sig %r' % e8s.decode('utf-8-sig'))
utf-8  w/ BOM decoded with utf-8-sig 'ABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'
>>> print('utf-16 w/ BOM decoded with utf-16    %r' % e16.decode('utf-16'))
utf-16 w/ BOM decoded with utf-16    'ABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'
>>> print('utf-16 w/ BOM decoded with utf-16le  %r' % e16.decode('utf-16le'))
utf-16 w/ BOM decoded with utf-16le  '\ufeffABCtestβ貝塔위másbêta|test|اختبار|测试|測試|テスト|परीक्षा|പരിശോധന|פּרובירן|kiểm tra|Ölçek|'

Варто знати, що тільки обидва utf-8-sigі utf-16повернути початковий рядок після обох encodeі decode.

— кат
джерело

-3

Ця проблема виникає в основному, коли ви зберігаєте код python у кодуванні UTF-8 або UTF-16, оскільки python автоматично додає спеціальний символ на початку коду (який не показується текстовими редакторами) для ідентифікації формату кодування. Але, коли ви намагаєтеся виконати код, він дає вам синтаксичну помилку в рядку 1, тобто початок коду, оскільки компілятор python розуміє кодування ASCII . при перегляді коду файлу за допомогою функції read (), яку ви бачите на початку повернутого коду, відображається «\ ufeff» . Одне з найпростіших рішень цієї проблеми - це лише змінивши кодування назад на кодування ASCII(для цього ви можете скопіювати свій код у блокнот і зберегти його. Пам'ятайте! виберіть кодування ASCII ... Сподіваюся, це допоможе.

— Ягдіш Чаухан
джерело