[英]Solr PDF search: “Go to page” function
我们正在使用Solr和Lucene构建PDF搜索机器,用户可以在其中搜索PDF文本。 该数据库仅包含PDF。
在搜索结果页面(“/ browse”)中,我们要使用#page = X附加PDF文件,其中X是找到文本的页面。 (如果使用锚标记指定,Adobe Acrobat会自动滚动到某个页面。)
例如,如果我搜索foobar
并且有一个pdf文档,其中foobar
位于第5页,则链接应为http://pdfserver/pdfs/pdf.pdf#page=5
(请注意末尾的锚点)。
我发现一个易于实现的解决方案是使用Adobe Reader在嵌入IE时支持的#search
参数。
例如:
http://pdfserver/pdfs/pdf.pdf#search=foobar
然后Adobe Reader跳转到该页面。
当然,人们需要对搜索项进行URL编码。
Apache tika可以将PDF文件转换为结构化数据,以便您将其提供给solr服务器。
我对你的问题的处理方法是每页编制每个pdf索引,额外的字段链接到章节,文本标题(或绝对路径,或两者)和页码。使用此数据,您可以在相关页面打开相关文档。
在这里阅读更多关于tika的信息: http : //tika.apache.org/
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.