У мене є сервер сокет, який повинен приймати дійсні символи UTF-8 від клієнтів.
Проблема полягає в тому, що деякі клієнти (в основному хакери) надсилають через нього всі неправильні види даних.
Я можу легко відрізнити справжнього клієнта, але я реєструю у файлах усі надіслані дані, щоб потім проаналізувати його.
Іноді я отримую таких персонажів, œ
які викликають UnicodeDecodeError
помилку.
Мені потрібно вміти робити рядок UTF-8 з цими символами або без них.
Оновлення:
У моєму конкретному випадку послуга сокета була MTA, і тому я очікую лише отримання команд ASCII, таких як:
EHLO example.com
MAIL FROM: <john.doe@example.com>
...
Я все це записував у JSON.
Потім деякі люди без добрих намірів вирішили продати всілякі барахли.
Ось чому для мого конкретного випадку цілком нормально знімати символи, що не належать до ASCII.