Є проблема, яку ми намагаємося вирішити, де ми хочемо зробити семантичний пошук на нашому наборі даних, тобто у нас є дані, що стосуються домену (приклад: пропозиції, що говорять про автомобілі)
Наші дані - це лише купа пропозицій, і ми хочемо дати фразу і повернути пропозиції, які є:
- Подібна до цієї фрази
- Має частину речення, схожу на фразу
- Речення, яке має контекстуально подібні значення
Дозвольте спробувати навести приклад. Припустимо, я шукаю фразу "Покупка досвіду", я повинен отримати такі пропозиції:
- Я ніколи не думав, що покупка автомобіля може зайняти менше 30 хвилин, щоб підписати та купити.
Я знайшов автомобіль, який мені сподобався, і процес придбання був
простим і легкимЯ абсолютно ненавидів їздити по магазинах, але сьогодні я радий, що зробив
Я хочу зробити акцент на тому, що ми шукаємо контекстуальну схожість, а не просто грубу силу пошуку слів.
Якщо в реченні використовуються різні слова, то і його слід вміти знайти.
Те, що ми вже спробували:
Відкритий семантичний пошук Проблема, з якою ми стикаємося тут, - це генерування онтології з даних, які ми маємо, або для цього пошук доступної онтології з різних областей, які нас цікавлять.
Еластичний пошук (BM25 + Vectors (tf-idf)), ми спробували це там, де він дав кілька пропозицій, але точність була не такою великою. Точність була також поганою. Ми намагалися проти набору даних, підготовлених людиною, він мав змогу отримати лише 10% вироків.
Ми спробували різні вбудовування, як колись згадувалося в реченнях-трансформаторах, а також пройшли приклад і спробували оцінити проти нашого куратора набору, який також мав дуже низьку точність.
Ми спробували ELMO . Це було краще, але все ж нижча точність, ніж ми очікували, і для визначення значення косинуса, нижче якого ми не повинні розглядати речення, є когнітивне навантаження. Це стосується навіть пункту 3.
Будь-яка допомога буде вдячна. Заздалегідь дякую за допомогу