Ймовірно, ваша проблема полягає в тому, що ви добре це розібрали, і тепер ви намагаєтеся надрукувати вміст XML, а ви не можете, оскільки є деякі іноземні символи Unicode. Спробуйте спочатку кодувати ваш рядок unicode як ascii:
unicodeData.encode('ascii', 'ignore')
частина «ігнорувати» підкаже, щоб просто пропустити ці символи. З документів python:
>>> u = unichr(40960) + u'abcd' + unichr(1972)
>>> u.encode('utf-8')
'\xea\x80\x80abcd\xde\xb4'
>>> u.encode('ascii')
Traceback (most recent call last):
File "<stdin>", line 1, in ?
UnicodeEncodeError: 'ascii' codec can't encode character '\ua000' in position 0: ordinal not in range(128)
>>> u.encode('ascii', 'ignore')
'abcd'
>>> u.encode('ascii', 'replace')
'?abcd?'
>>> u.encode('ascii', 'xmlcharrefreplace')
'ꀀabcd޴'
Можливо, ви хочете прочитати цю статтю: http://www.joelonsoftware.com/articles/Unicode.html , що мені здалося дуже корисним як основний підручник щодо того, що відбувається. Після прочитаного ви перестанете відчувати, ніби просто здогадуєтесь, які команди використовувати (або принаймні, що трапилося зі мною).
unicode()
?