Як визначити складність англійського речення?


10

Я працюю над додатком, щоб допомогти людям вивчати англійську мову як другу мову. Я підтвердив, що речення допомагають вивчати мову, надаючи додатковий контекст. Я зробив це, провівши невелике дослідження в класі 60 учнів.

Я видобув понад сто тисяч речень з Вікіпедії для різних англійських слів (включаючи 800 слів Баррона і 1000 найпоширеніших англійських слів)

Цілі дані доступні на веб- сайті https://buildmyvocab.in

Щоб зберегти якість вмісту, я відфільтрував речення, довжина яких перевищує 160 символів, оскільки їх, можливо, важко зрозуміти.

Наступним кроком я хочу мати можливість автоматизувати процес сортування цього вмісту в порядку простоти розуміння. Я сам немовний англомовний. Хочу знати, які функції я можу використовувати, щоб відокремити легкі речення від складних.

Також, чи вважаєте ви, що це можливо?

Відповіді:


8

Так. Існують різні показники, такі як індекс туману. Текстовість у python має приємний список та реалізацію.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

Ви також можете подивитися на ентропію або відсоток унікальних слів, але наведені вище показники є більш актуальними.
GrimSqueaker
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.