Шарсе "все включено", щоб уникати "java.nio.charset.MalformedInputException: Вхідна довжина = 1"?

Question 1

Я створюю просту програму підрахунку слів на Java, яка читає текстові файли каталогу.

Однак я продовжую отримувати помилку:

java.nio.charset.MalformedInputException: Input length = 1

з цього рядка коду:

BufferedReader reader = Files.newBufferedReader(file,Charset.forName("UTF-8"));

Я знаю, що, мабуть, отримую це, тому що використовував, Charsetякий не включав деякі символи в текстові файли, деякі з яких включали символи інших мов. Але я хочу включити цих персонажів.

Пізніше я дізнався в JavaDocs, що це Charsetє необов’язковим і використовується лише для більш ефективного читання файлів, тому я змінив код на:

BufferedReader reader = Files.newBufferedReader(file);

Але деякі файли все ще видають MalformedInputException. Не знаю чому.

Мені було цікаво, чи існує все включено, Charsetщо дозволить мені читати текстові файли з різними типами символів ?

Дякую.

Question 2

Можливо, ви хочете мати список підтримуваних кодувань. Для кожного файлу спробуйте кожне кодування по черзі, можливо, починаючи з UTF-8. Щоразу, коли ви ловите MalformedInputException, спробуйте наступне кодування.

Question 3

Створення BufferedReader з Files.newBufferedReader

Files.newBufferedReader(Paths.get("a.txt"), StandardCharsets.UTF_8);

під час запуску програми може виникнути такий виняток:

java.nio.charset.MalformedInputException: Input length = 1

Але

new BufferedReader(new InputStreamReader(new FileInputStream("a.txt"),"utf-8"));

працює добре.

Різне в тому, що перший використовує дію за замовчуванням CharsetDecoder.

Дія за замовчуванням для помилок із неправильним введенням та невідповідними символами - це повідомлення про них.

тоді як останній використовує дію ЗАМІНИ.

cs.newDecoder().onMalformedInput(CodingErrorAction.REPLACE).onUnmappableCharacter(CodingErrorAction.REPLACE)

Question 4

ISO-8859-1 - це всебічна кодировка, в тому сенсі, що вона гарантовано не викине MalformedInputException. Тож це добре для налагодження, навіть якщо ваш ввід не входить у цю кодировку. Тому:-

req.setCharacterEncoding("ISO-8859-1");

У моєму введенні були символи з подвійною правою лапкою / подвійною лівою лапкою, і US-ASCII, і UTF-8 накидали на них MalformedInputException, але ISO-8859-1 спрацював.

Question 5

Я також зіткнувся з цим винятком із повідомленням про помилку,

java.nio.charset.MalformedInputException: Input length = 1
at java.nio.charset.CoderResult.throwException(Unknown Source)
at sun.nio.cs.StreamEncoder.implWrite(Unknown Source)
at sun.nio.cs.StreamEncoder.write(Unknown Source)
at java.io.OutputStreamWriter.write(Unknown Source)
at java.io.BufferedWriter.flushBuffer(Unknown Source)
at java.io.BufferedWriter.write(Unknown Source)
at java.io.Writer.write(Unknown Source)

і виявив, що при спробі використання виникає якась дивна помилка

BufferedWriter writer = Files.newBufferedWriter(Paths.get(filePath));

написати рядок "оразг 54", відлитий від загального типу в класі.

//key is of generic type <Key extends Comparable<Key>>
writer.write(item.getKey() + "\t" + item.getValue() + "\n");

Цей рядок довжиною 9 містить символи з такими кодовими точками:

111 114 97 122 103 103 9 53 52 10

Однак, якщо BufferedWriter у класі замінено на:

FileOutputStream outputStream = new FileOutputStream(filePath);
BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(outputStream));

він може успішно написати цей рядок без винятків. Крім того, якщо я пишу ту саму String, створену з символів, це все одно працює нормально.

String string = new String(new char[] {111, 114, 97, 122, 103, 9, 53, 52, 10});
BufferedWriter writer = Files.newBufferedWriter(Paths.get("a.txt"));
writer.write(string);
writer.close();

Раніше я ніколи не стикався з будь-яким винятком при використанні першого BufferedWriter для написання будь-яких рядків. Це дивна помилка, яка виникає у BufferedWriter, створеному з java.nio.file.Files.newBufferedWriter (шлях, параметри)

Question 6

ISO_8859_1 Працював у мене! Я читав текстовий файл із значеннями, розділеними комами

Question 7

Я написав наступне, щоб надрукувати список результатів, щоб стандартно вийти на основі наявних наборів символів. Зверніть увагу, що він також повідомляє вам, який рядок відмовляє від номера рядка на основі 0, якщо ви вирішуєте, який символ викликає проблеми.

public static void testCharset(String fileName) {
    SortedMap<String, Charset> charsets = Charset.availableCharsets();
    for (String k : charsets.keySet()) {
        int line = 0;
        boolean success = true;
        try (BufferedReader b = Files.newBufferedReader(Paths.get(fileName),charsets.get(k))) {
            while (b.ready()) {
                b.readLine();
                line++;
            }
        } catch (IOException e) {
            success = false;
            System.out.println(k+" failed on line "+line);
        }
        if (success) 
            System.out.println("*************************  Successs "+k);
    }
}

Question 8

спробуйте це .. у мене була та сама проблема, нижче реалізація працювала для мене

Reader reader = Files.newBufferedReader(Paths.get(<yourfilewithpath>), StandardCharsets.ISO_8859_1);

то використовуйте Reader, де завгодно.

foreg:

CsvToBean<anyPojo> csvToBean = null;
    try {
        Reader reader = Files.newBufferedReader(Paths.get(csvFilePath), 
                        StandardCharsets.ISO_8859_1);
        csvToBean = new CsvToBeanBuilder(reader)
                .withType(anyPojo.class)
                .withIgnoreLeadingWhiteSpace(true)
                .withSkipLines(1)
                .build();

    } catch (IOException e) {
        e.printStackTrace();
    }

Question 9

Ну, проблема в тому, що Files.newBufferedReader(Path path)реалізовано так:

public static BufferedReader newBufferedReader(Path path) throws IOException {
    return newBufferedReader(path, StandardCharsets.UTF_8);
}

тому в основному немає сенсу вказувати, UTF-8якщо ви не хочете бути описовим у своєму коді. Якщо ви хочете спробувати "ширший" набір символів, з яким ви могли б спробувати StandardCharsets.UTF_16, але ви не можете бути впевнені на 100%, що отримаєте всі можливі символи.

Question 10

Ви можете спробувати щось на зразок цього, або просто скопіювати та пропустити нижній фрагмент.

boolean exception = true;
Charset charset = Charset.defaultCharset(); //Try the default one first.        
int index = 0;

while(exception) {
    try {
        lines = Files.readAllLines(f.toPath(),charset);
          for (String line: lines) {
              line= line.trim();
              if(line.contains(keyword))
                  values.add(line);
              }           
        //No exception, just returns
        exception = false; 
    } catch (IOException e) {
        exception = true;
        //Try the next charset
        if(index<Charset.availableCharsets().values().size())
            charset = (Charset) Charset.availableCharsets().values().toArray()[index];
        index ++;
    }
}

Question 11

UTF-8 працює для мене з польськими символами