繁体   English   中英

Solr PDF搜索:“转到页面”功能

[英]Solr PDF search: “Go to page” function

我们正在使用Solr和Lucene构建PDF搜索机器,用户可以在其中搜索PDF文本。 该数据库仅包含PDF。

在搜索结果页面(“/ browse”)中,我们要使用#page = X附加PDF文件,其中X是找到文本的页面。 (如果使用锚标记指定,Adobe Acrobat会自动滚动到某个页面。)

例如,如果我搜索foobar并且有一个pdf文档,其中foobar位于第5页,则链接应为http://pdfserver/pdfs/pdf.pdf#page=5 (请注意末尾的锚点)。

  1. 这可能吗?
  2. 我们如何获得此页码?

我发现一个易于实现的解决方案是使用Adobe Reader在嵌入IE时支持的#search参数。

例如:

http://pdfserver/pdfs/pdf.pdf#search=foobar

然后Adobe Reader跳转到该页面。

当然,人们需要对搜索项进行URL编码。

Apache tika可以将PDF文件转换为结构化数据,以便您将其提供给solr服务器。

我对你的问题的处理方法是每页编制每个pdf索引,额外的字段链接到章节,文本标题(或绝对路径,或两者)和页码。使用此数据,您可以在相关页面打开相关文档。

在这里阅读更多关于tika的信息: http//tika.apache.org/

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM