[英]Integrating grobid with tika and solr
我正在使用 Solr 來索引期刊文章。 使用開箱即用的配置,它為文檔的文本編制了索引,但我希望使用 Grobid 提取作者、標題、隸屬關系等。我將 grobid 作為服務啟動並運行。
我加了
<str name="tika.config">/path/to/tika-config.xml</str>
到 solrconfig.xml 中 /update/extract 的 requestHandler
tika-config 看起來像:
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<properties>
<parsers>
<parser class="org.apache.tika.parser.journal.JournalParser">
<mime>application/pdf</mime>
</parser>
</parsers>
</properties>
當我嘗試導入文檔時遇到 ClassNotFound 異常,但不知道在哪里設置類路徑來修復它。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.