Автоматичний розбір тексту цитування в академічних довідниках


18

Чи є яке-небудь програмне забезпечення (або псевдо-код), яке може автоматично сканувати фрагмент тексту (або вставити його в інструмент, або прочитати з .doc / .pdf) та ідентифікувати дані цитування, використовуючи стандартні формати? Далі дані будуть розбиті на складові поля та експортовані у XML, CSV або інший структурований формат даних. Я переглянув cb2Bib, але він зміг витягнути рік лише з посилань на гарвардський стиль, що недостатньо.


Ви хочете сканувати сам текст або просто розділ посилань?
innaM

Просто посилання - це, мабуть, документ, що містить особисті публікації.
Алістер Нок

Я не впевнений, що це те, що вам може знадобитися, але ви можете спробувати це refhive.com
Mostafa Elmoghazi

Відповіді:


4

Погляньте на цей список парсерів цитування, який може генерувати XML із вхідного тексту:

http://freecite.library.brown.edu
http://paracite.eprints.org
http://aye.comp.nus.edu.sg/parsCit (в режимі обслуговування з 1 серпня 2012 р.)
http: // opcit.eprints.org
http://search.cpan.org/~mjewell/Biblio-Citation-Parser-1.10

З freecite ви можете використовувати curlкоманду для подання цитат наступним чином (у PHP):

$cmd = "curl -H 'Accept: text/xml' -d \"" . $myinput . "\" http://freecite.library.brown.edu/citations/create";
$xmloutput = exec( $cmd );

Інший варіант - github.com/inspirehep/refextract . Він не заснований на ML, але він дуже добре працював на моїх тестах.
Йосир

3

На даний момент (2017 р.) Найактивнішим проектом з відкритим кодом, що реалізує це, здається, Anystyle Parser (остання версія 07-2016). Його можна використовувати через веб-інтерфейс, API або завантажити як RubyGem.

На своєму веб-сайті вони чітко зазначають, що реалізація натхненна ParsCit (остання версія 2013?) Та FreeCite (останній альбом 2009).

Також сформуйте їх веб-сайт:

AnyStyle Parser використовує потужну евристику машинного навчання на основі умовних випадкових полів, яку може навчити кожен, використовуючи наш вбудований редактор.

Це справді класна функція, яка робить це найцікавішим втіленням (imho). Навчання здається досить простим, як це пояснено в документації API . Ви просто надаєте кілька коригуваних вручну результатів і запускаєте Anystyle.parser.trainкоманду. Я не впевнений, що ParsCit і FreeCite також підтримують це, але якщо цього не зробити, це здається мені величезною різницею.


За винятком Anystyle Parser, всі вони згадуються у найвищому відповіді на даний момент. Що насправді виділяє їх? Які б були переваги чи недоліки з огляду на оригінальне запитання?
Сет

А, справді. Я відредагую і вдосконалю свою відповідь. Thx для вказівки на це.
Wouter

Схоже, зараз мертвий.
експерт

1
@Brandon: Я опублікував HOWTO тут: github.com/inukshuk/wapiti-ruby/isissue/3
Wouter

1
Це чудово виглядає, дякую! Як той, хто ніколи не торкався рубіну, він справді буде дуже корисним.
Брендон

2

Спробуйте такий інструмент, як Regex Buddy або Expresso .

Якщо ви не програміст, регулярні вирази можуть трохи залякати, але вони насправді не такі важкі, особливо з гідним інструментом, як один із перерахованих вище.

Ось приклад того, хто використовує регулярні вирази для вилучення цитат:

Синтаксичний аналіз регулярного вираження


1

Менделі повинен бути в змозі це зробити. Він може імпортувати PDF-файли, а потім експортувати метадані в BibTeX, RIS та EndNote XML. Він завантажується безкоштовно і є кросплатформенним.

Редагувати: Я перевірив це на кількох документах. Імпорт PDF, здається, працює добре для посилань, які правильно відформатовані. Для документа, який я створив за допомогою LaTeX, усі посилання з автором у формі "Smith, J." або "Дж. Сміт" тощо. імпортували штрафи. Якщо автор - компанія (одне слово) або посилання неповне, воно також не працює. Витягнуті посилання можна легко редагувати та експортувати в BibTeX тощо.


2
"Ця функція була видалена в Mendeley 0.9.7, оскільки вона витрачала неабияку кількість ресурсів (клієнт та сервер), не надаючи достатньої вартості. ......
відгук.mendeley.com/forums/4941-mendeley-

1

Я бачив, як програма Westlaw робить це для законних цитат, але це, мабуть, не те, що ви шукаєте. Reference Manager може зробити щось подібне для академічних форматів, але я ніколи цього не використовував.



0

Zotero - плагін для Firefox, який робить це для веб-контенту. Не впевнений, чи є подібний інструмент для документів / pdfs


1
Я знаю, що Zotero призначений не для цього, але якщо ви вказали Firefox на текстовий файл або html-файл із відповідними даними, Zotero може розпізнати посилання, а потім ви можете додати його до бібліотеки Zotero та експортувати вся бібліотека у будь-якому форматі, який вам подобається (я знаю, що Zotero підтримує купу форматів). Це було б болісно для великої кількості файлів.
недільний

Я не бачу, як Зотеро робить те, що просить ОП. Я встановив його, але, здається, немає можливості проаналізувати посилання.
Рікі

Zotero розбирає цитати із спеціально кодованих веб-сайтів, а не зі звичайного тексту.
Очадо,

0

Це, мабуть, належить більше як коментар до @Abhinav, але zotero, безумовно, обробляє лише структуровані дані, як ви знайдете описані тут:

http://www.zotero.org/support/getting_stuff_into_your_library#importing_records_from_other_reference_tools

Цікавим злом може бути спроба написати програму, яка використовує кожне цитування як пошуковий запит у вашій улюбленій базі даних, а потім використовує щось на зразок zotero для генерації інформації про перегляд. Ви також можете завантажити структуровану інформацію з таких сервісів, як citeUlike. Дайте мені знати, якщо ви закінчите робити щось подібне! (викладіть це на github, якщо ви робите;).

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.