Чи існує набір файлів “Lorem ipsums” для тестування питань кодування символів?

Question 1

Для компонування маємо наш відомий текст "Lorem ipsum", щоб перевірити, як він виглядає.

Я шукаю набір файлів, що містять Текст, закодований декількома різними кодуваннями, які я можу використовувати у своїх тестах JUnit для тестування деяких методів, що мають справу з кодуванням символів під час читання текстових файлів.

Приклад:

Наявність ISO 8859-1закодованого тестового файлу та Windows-1252закодованого тестового файлу. Windows-1252 повинен викликати відмінності в регіоні 80 ₁₆ - 9F ₁₆ . Іншими словами, він повинен містити принаймні один символ цієї області, щоб відрізняти його від ISO 8859-1.

Можливо, найкращим набором тестових файлів є той, де тестовий файл для кожного кодування містить один раз усі його символи. Але, можливо, я не знаю про що - нам усім подобається це кодування, так? :-)

Чи існує такий набір тестових файлів для питань кодування символів?

Question 2

Як щодо спроби використовувати файли тестового набору ICU ? Я не знаю, чи саме вони вам потрібні для тесту, але, схоже, вони мають досить повні принаймні файли зіставлення від / до UTF: Посилання на репо для тестових файлів ICU

Question 3

Стаття Вікіпедії про діакритику є досить вичерпною, на жаль, вам доведеться витягувати ці символи вручну. Також для кожної мови може існувати кілька мнемотехніки. Наприклад, польською мовою ми використовуємо:

Zażółć gęślą jaźń

який містить усі 9 польських діакритиків в одному правильному реченні. Ще одним корисним підказкою для пошуку є панграми : речення, що принаймні один раз використовують кожну літеру алфавіту :

іспанською мовою: " El veloz murciélago hindú comía feliz cardillo y kiwi. La cigüeña tocaba el saxofón detrás del palenque de paja. " (усі 27 букв та діакритики).

російською мовою, " Съешь же ещё этих мягких французских булок, да выпей чаю " (усі 33 букви російської кирилиці).

Список панграм містить вичерпний підсумок. Хто завгодно оберне це простим:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}

бібліотека?

Question 4

Я не знаю жодних повних текстових документів, але якщо ви можете розпочати з простого огляду всіх наборів символів, є деякі файли, доступні на сервері ftp.unicode.org

Ось, наприклад, WINDOWS-1252. Перший стовпець - це шістнадцяткове значення символу, а другий - значення юнікоду.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT

Question 5

Ну, я використовував Інтернет-інструмент для створення своїх текстових наборів символів від Lorem Ipsum. Я вірю, що це може вам допомогти. У мене немає такої, яка б містила всі різні набори символів на одній сторінці.

http://generator.lorem-ipsum.info /