簡體   English   中英

Solr PDF搜索:“轉到頁面”功能

[英]Solr PDF search: “Go to page” function

我們正在使用Solr和Lucene構建PDF搜索機器,用戶可以在其中搜索PDF文本。 該數據庫僅包含PDF。

在搜索結果頁面(“/ browse”)中,我們要使用#page = X附加PDF文件,其中X是找到文本的頁面。 (如果使用錨標記指定,Adobe Acrobat會自動滾動到某個頁面。)

例如,如果我搜索foobar並且有一個pdf文檔,其中foobar位於第5頁,則鏈接應為http://pdfserver/pdfs/pdf.pdf#page=5 (請注意末尾的錨點)。

  1. 這可能嗎?
  2. 我們如何獲得此頁碼?

我發現一個易於實現的解決方案是使用Adobe Reader在嵌入IE時支持的#search參數。

例如:

http://pdfserver/pdfs/pdf.pdf#search=foobar

然后Adobe Reader跳轉到該頁面。

當然,人們需要對搜索項進行URL編碼。

Apache tika可以將PDF文件轉換為結構化數據,以便您將其提供給solr服務器。

我對你的問題的處理方法是每頁編制每個pdf索引,額外的字段鏈接到章節,文本標題(或絕對路徑,或兩者)和頁碼。使用此數據,您可以在相關頁面打開相關文檔。

在這里閱讀更多關於tika的信息: http//tika.apache.org/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM