簡體   English   中英

如何在Solr查詢中排除從PDF索引的文本

[英]How to exclude text indexed from PDF in solr query

我有一個從PDF文件目錄生成的Solr索引,並具有與PDF文件本身相關的元數據字段。 不過,我仍想為我的用戶提供一個選項,以在查詢中排除從PDF內索引的任何文本。 這樣一來,查詢結果將基於元數據字段,而不會受到pdf文件中大量文本的影響。

我想過也許有兩個索引(核心)-一個帶有索引的pdf文件,另一個沒有。

還有另一種方法嗎?

聽起來您正在對默認字段進行常規搜索。 這意味着您有很多copyField指令(或只有一個copyField *->文本),其中包括PDF內容字段。

您可以創建第二個目標,並將除了PDF內容字段之外的所有內容都復制到該字段中。 這樣,用戶可以搜索或搜索另一個組合字段。

但是,請記住,這將根據目標字段的分析鏈來解析所有內容。 因此,帶有源字段列表的eDisMax可能是一種更好的方法。 而且,請記住,您可以使用多個請求處理程序(例如“ select”)並在那里定義不同的默認參數。 這通常會使客戶端代碼更容易些。

您不需要使用2個單獨的索引。 您可以使用edismax解析器並在查詢時指定qf參數。 這將有助於確定要搜索的字段。

您可以查看字段別名

如果您有3個索引字段

  • pdf元
  • pdf文本

然后您可以創建兩個字段別名

  • 快速搜索:pdfmeta
  • Fullsearch:pdfmeta,pdftext

在qf上使用字段別名的一個優勢是,如果您的用戶具有q = quicksearch:value之類的書簽,則可以更改別名以進行快速搜索,而不會影響用戶的書簽。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM