Я шукаю певний вклад та теорію щодо підходу до лексичної теми.
Скажімо, у мене є колекція рядків, яка може бути просто одним реченням або потенційно декількома реченнями. Я хотів би проаналізувати ці рядки та вирвати найважливіші слова, можливо, із оцінкою, яка позначає, наскільки ймовірно, що слово має значення.
Давайте розглянемо кілька прикладів того, що я маю на увазі.
Приклад №1:
"Я дуже хочу Кеуріга, але не можу собі дозволити!"
Це дуже базовий приклад, лише одне речення. Як людина, я легко бачу, що «Кеуріг» - це найважливіше слово тут. Також "дозволити собі" є відносно важливим, хоча це, очевидно, не основний пункт речення. Слово "Я" з'являється двічі, але це зовсім не важливо, оскільки воно насправді не повідомляє нам жодної інформації. Я можу очікувати, що я побачу хеш слова / балів приблизно так:
"Keurig" => 0.9
"afford" => 0.4
"want" => 0.2
"really" => 0.1
etc...
Приклад №2:
"Просто в мене була одна з найкращих практик плавання в моєму житті. Сподіваюся, я можу підтримувати свої часи, коли змагання. Якби я згадав взяти свій непромокальний годинник".
У цьому прикладі є декілька речень, тому в усьому буде більше важливих слів. Не повторюючи точку вправи з прикладу №1, я, мабуть, очікував, що з цього вийдуть два-три дійсно важливих слова: "плавання" (або "плавальна практика"), "змагання" та "дивитися" (або "водонепроникний" годинник "або" не водонепроникний годинник "залежно від способу обробки дефісу).
З огляду на кілька таких прикладів, як би ви зробили щось подібне? Чи існують бібліотеки чи алгоритми з програмою з відкритим кодом, які вже роблять це?