簡體   English   中英

將 grobid 與 tika 和 solr 集成

[英]Integrating grobid with tika and solr

我正在使用 Solr 來索引期刊文章。 使用開箱即用的配置,它為文檔的文本編制了索引,但我希望使用 Grobid 提取作者、標題、隸屬關系等。我將 grobid 作為服務啟動並運行。

我加了

<str name="tika.config">/path/to/tika-config.xml</str>

到 solrconfig.xml 中 /update/extract 的 requestHandler

tika-config 看起來像:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
  <parsers>
    <parser class="org.apache.tika.parser.journal.JournalParser">
      <mime>application/pdf</mime>
    </parser>
  </parsers>
</properties>

當我嘗試導入文檔時遇到 ClassNotFound 異常,但不知道在哪里設置類路徑來修復它。

正如 Solr 用戶列表中提到的,最新版本的 Solr (6.0.0) 使用的 Tika (1.7) 版本早於添加 grobid (Tika 1.11 中出現) permalink 要升級到 Tika 1.13,請參閱SOLR-8981

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM