"А" пов'язаний з "В" і "С". Як я можу показати, що в цьому контексті можуть бути пов'язані також "B" і "C"?
Приклад:
Ось кілька заголовків про недавню п’єсу на Бродвеї:
- Гленгарі Глена Росса Девіда Мамета, у головній ролі Аль Пачіно, відкривається на Бродвеї
- Аль Пачіно в «Гленгаррі Глен Росс»: Що думали критики?
- Аль-Пачіно заробляє неприємні відгуки на розвороті на Бродвей
- Театральний огляд: Гленгаррі Глен Росс важко продає зірок
- Гленгаррі Глен Росс; Гей, хто вбив Кліг вогнів?
Проблема:
Проведення нечіткого поєднання рядків над цими записами встановить деякі стосунки, а не інші, навіть якщо людський читач міг би їх виділити з контексту в набагато більших наборах даних.
Як я можу знайти стосунки, які підказують, що №3 пов'язаний з №4? Обидва їх можна легко підключити до №1, але не один до одного.
Чи є назва (Googlable) для подібних даних або структури? Який алгоритм я шукаю?
Мета:
З огляду на 1000 заголовків, система, яка автоматично підказує, що ці 5 пунктів, мабуть, приблизно однакові.
Якщо чесно, то пройшло так довго, як я запрограмував, що втрачаю, як правильно сформулювати цю проблему. (Я не знаю, чого не знаю, якщо це має сенс).
Це особистий проект, і я пишу його на Python. Заздалегідь дякую за будь-яку допомогу, поради та вказівки!