Інструмент для вимірювання читабельності англійського тексту


13

Чи існує програма командного рядка, яка бере файл, що містить текст англійською мовою, аналізує текст та видає його бали для читання?

Наприклад, якщо хтось подає програмі текст, програма повинна вивести рівень класу Flesch-Kincaid, оцінку SMOG McLaughlin тощо.

Я вважаю, що така програма існує в офіційних сховищах, але я не можу згадати її назву. Також є ймовірність, що я помиляюсь.

Відповіді:


11

diction Встановити дикціюПакет містить інструмент під назвою style:

Style аналізує поверхневі характеристики стилю написання документа. У ній друкуються різні класи читабельності, довжина слів, речень та абзаців. Він може додатково знаходити речення з певними характеристиками.

Наприклад, якщо я оцінюю ваше запитання (збережене у файлі flux_question), щоб надрукувати речення з індексом читабельності (ARI) понад 10:

$ style -r 10 flux_question
flux_question:1: Is there a command line program that takes a file containing English text, analyzes the text, and outputs its readability scores?
flux_question:2: For example, if one feeds the program a text, the program should output the Flesch-Kincaid grade level, McLaughlin's SMOG grading, etc.
readability grades:
        Kincaid: 10.2
        ARI: 10.8
        Coleman-Liau: 12.5
        Flesch Index: 51.1/100
        Fog Index: 12.0
        Lix: 48.6 = school year 9
        SMOG-Grading: 11.2
sentence info:
        333 characters
        65 words, average length 5.12 characters = 1.65 syllables
        4 sentences, average length 16.2 words
        25% (1) short sentences (at most 11 words)
        0% (0) long sentences (at least 26 words)
        1 paragraphs, average length 4.0 sentences
        25% (1) questions
        25% (1) passive sentences
        longest sent 21 wds at sent 2; shortest sent 8 wds at sent 4
word usage:
        verb types:
        to be (1) auxiliary (2) 
        types as % of total:
        conjunctions 5% (3) pronouns 9% (6) prepositions 2% (1)
        nominalizations 0% (0)
sentence beginnings:
        pronoun (1) interrogative pronoun (0) article (0)
        subordinating conjunction (0) conjunction (0) preposition (0)

Для фільтрації виводу ви можете використовувати, наприклад, tail -n8щоб отримати лише оцінки або grep 'Flesch\|SMOG'просто надрукувати індекс Flesch та оцінку SMOG:

$ style style_test | grep 'Flesch\|SMOG'
        Flesch Index: 51.7/100
        SMOG-Grading: 11.2

Подальше читання

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.