Це одна з приємних проблем, коли обсяг може відрізнятися від домашнього завдання до проекту розміру Google.
Дійсно, можна почати із спільного виникнення слів (наприклад, умовна ймовірність). Ви швидко дізнаєтесь, що ви отримаєте список слів стоп, як пов’язаних більшість слів, просто тому, що вони дуже популярні. Використання підвищення умовної ймовірності подбає про слова зупинки, але зробить відношення схильним до помилок у невеликій кількості (більшість ваших випадків). Ви можете спробувати Жакарда, але оскільки він симетричний, стосунків багато не знайдеться.
Тоді ви можете розглянути стосунки, які з’являються лише на невеликій відстані від основного слова. Ви можете (і повинні) розглянути відносини на основі загальних корпусів (наприклад, Вікіпедія) та конкретних користувачів (наприклад, його електронних листів).
Зовсім скоро у вас буде багато заходів щодо спорідненості, коли всі заходи хороші та мають певну перевагу перед іншими.
Для того, щоб поєднати такі заходи, я люблю переносити проблему на проблему класифікації.
Ви повинні побудувати набір даних з пари слів і позначити їх як "пов'язано". Для того, щоб створити великий мічений набір даних, ви можете:
- Використовуйте джерела відомих споріднених слів (наприклад, старі добрі категорії Вікіпедії) для позитивних
- Більшість слів, не відомих як споріднені, не пов’язані між собою.
Потім використовуйте всі ваші заходи як особливості пар. Тепер ви перебуваєте в області проблеми, що контролюється класифікацією. Побудуйте класифікатор на наборі даних, який оцінюється відповідно до ваших потреб та отримайте міру подібності, що відповідає вашим потребам.