[英]Solr PDF search: “Go to page” function
我們正在使用Solr和Lucene構建PDF搜索機器,用戶可以在其中搜索PDF文本。 該數據庫僅包含PDF。
在搜索結果頁面(“/ browse”)中,我們要使用#page = X附加PDF文件,其中X是找到文本的頁面。 (如果使用錨標記指定,Adobe Acrobat會自動滾動到某個頁面。)
例如,如果我搜索foobar
並且有一個pdf文檔,其中foobar
位於第5頁,則鏈接應為http://pdfserver/pdfs/pdf.pdf#page=5
(請注意末尾的錨點)。
我發現一個易於實現的解決方案是使用Adobe Reader在嵌入IE時支持的#search
參數。
例如:
http://pdfserver/pdfs/pdf.pdf#search=foobar
然后Adobe Reader跳轉到該頁面。
當然,人們需要對搜索項進行URL編碼。
Apache tika可以將PDF文件轉換為結構化數據,以便您將其提供給solr服務器。
我對你的問題的處理方法是每頁編制每個pdf索引,額外的字段鏈接到章節,文本標題(或絕對路徑,或兩者)和頁碼。使用此數據,您可以在相關頁面打開相關文檔。
在這里閱讀更多關於tika的信息: http : //tika.apache.org/
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.