Співвідношення та відмінність між інформацією пошуку та вилученням інформації?


11

З Вікіпедії

Пошук інформації - це діяльність щодо отримання інформаційних ресурсів, що відповідають потребі в інформації, із колекції інформаційних ресурсів. Пошуки можуть базуватися на метаданих або на повнотекстовій індексації.

З Вікіпедії

Витяг інформації (IE) - завдання автоматичного вилучення структурованої інформації з неструктурованих та / або напівструктурованих машиночитаних документів. У більшості випадків ця діяльність стосується обробки текстів людської мови за допомогою обробки природних мов (NLP). Останні дії в обробці мультимедійних документів, такі як автоматична анотація та вилучення вмісту із зображень / аудіо / відео, можна розглядати як вилучення інформації.

Які зв'язки та відмінності між пошуком інформації та вилученням інформації?

Дякую!

Відповіді:


9

Пошук інформації є на основі запиту - вказати , яка інформація вам потрібна , і вона повертається в зрозумілій людині формі.

Витяг інформації про структуруванні неструктурованою інформації - з огляду на деякі джерела все (відповідної) інформації структуровані в формі , яка буде легко обробляти. Це не буде необхідним у зрозумілій для людини формі - це може бути лише використання комп'ютерних програм.

Деякі джерела:


7

http://gate.ac.uk/ie/ дає дуже приємне, стисле розмежування:

Вилучення інформації - це не отримання інформації: вилучення інформації відрізняється від традиційних методик тим, що вона не відновлює з колекції підмножину документів, які, мабуть, мають відношення до запиту на основі пошуку ключових слів (можливо, доповнених тезаурусом). Натомість мета - витягнути з документів (які можуть бути різними мовами) важливі факти про заздалегідь визначені типи подій, сутностей чи відносин. Ці факти потім автоматично вводяться автоматично в базу даних, яка потім може бути використана для аналізу даних щодо тенденцій, надання зведення природних мов або просто для служб он-лайн доступу.

Кажучи образно:

Інформаційний пошук отримує набори відповідних документів:

введіть тут опис зображення

Вилучення інформації отримує факти з документів:

введіть тут опис зображення


2

З точки зору моделювання, пошук інформації є глибоким полем, орієнтованим на декілька дисциплін, включаючи статистику, математику, лінгвістику, штучний інтелект та науку про дані. На практиці ці моделі застосовуються проти тексту всередині корпусів для виявлення шаблонів даних. Моделі ІР не лише перекриваються у використанні, вони можуть "співпрацювати" з іншими моделями, такими як k-засоби або k-найближчі моделі сусідів, тоді інші моделі можуть бути застосовані з точки зору обчислювальної лінгвістики, такі як LDA / LDI та моделювання теми Тоді кінцева гра - це якась інформаційна візуалізація цього відкриття - після ранжирування, кластеризації та агрегування роботи. Пошук інформації може виявитися криптовалютною дисципліною, але серйозними зусиллями, які дуже цінуються, збирається відкрити область для глибшого розуміння кожної моделі та взаємодії між моделями. Я цитую серію "Синтез лекцій щодо інформаційних концепцій, пошуку та послуг" як найкраще місце для заглиблення у фундамент ІР.

Хоча я не повністю відокремлюю ІЧ та видобуток інформації, можливо, підмножина IE, вилучення рівня концепції, застосовує ІЧ-шаблони разом із правилами розширення на основі AI для вилучення пов'язаних онтологій. Графічний характер цих відносин посилюється за допомогою моделювання онтології в OWL та RDF, а також за допомогою графічних баз даних, які дозволяють створити менш суворий або суворий набір моделювання відносин і дозволять отримати більше відносин на поверхню, а не контролювати їх самі по собі. Здатність динамічно рости видобуток інформації динамічно зберігає свою "дисципліну", дуже цікаву дослідникам.

І ІР, і ІЕ розігруються в наших власних "сутностях моменту" - деякі називають "динамічними онтологіями", а деякі - Палантіром. обличчя перетворення нових джерел інформації та зміни існуючої інформації. Концептуальне, реляційне, дефінітивне, закономірне та онтологічне моделювання повинно бути гнучким, а їх візуалізації - однаковими. Важкий підйом двигунів AI, таких як Ватсон у сферах вилучення та зараження інформації, кинув увагу на IE та відверто ІЧ поля. Також повсюдність обробки природних мов та машинного навчання привертають увагу до моделей та двигунів ІЧ та ІЕ. Вплив ІР-моделей на пошук та SEO та на семантичне веб-моделювання є одним із таких "


1

Пошук інформації - це повернення інформації, яка є важливою для конкретного запиту чи сфери інтересів. Зауважте, що ця інформація також може бути у формі загальних документів, але впевнений приклад такої задачі є досить впевненими пошуковими системами. Я б сказав, що найважливішими особами, розпізнаваними для пошуку інформації, є початковий набір документів / інформації та запит, який визначає "що шукати".

З іншого боку, вилучення інформації - це більше про вилучення (або виведення) загальних знань (або відносин) із набору документів чи інформації. Зауважимо, що тут весь зміст документів можна розглядати як цілий корпус даних, з яких витягують знання. Звичайно, також у цьому випадку ви можете якось вказати, що ви хочете витягти, але це стосується властивостей / відносин, ніж конкретних тем / тем. Властивості є більш доменними, в той час як взагалі стосунки охоплюють більш загальні сценарії.

Знову ж таки, у пошукових системах ви просите отримати сайти, які, швидше за все, містять інформацію про цю конкретну тему. Це приклад пошуку інформації .

Для отримання інформації ви можете замість цього, наприклад, попросити витягнути всі назви міст чи адреси електронної пошти, що відображаються у корпусі документів. Ви могли навіть піти набагато більш загально, попросивши просто витягнути знання. Як ви бачите, це справді загальне, але це може бути досягнуто, наприклад, шляхом отримання трійки форми предмет-дія-об’єкт для кожного дійсного пропозиції тексту (це найкраще підходить для текстів на природній мові).

Якщо ви зацікавлені, ці (та інші) теми детально пояснюються у розділі « Природа природних мов» книги « Штучний інтелект: сучасний підхід» .

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.