簡體 English 中英

如何在Solr查詢中排除從PDF索引的文本

[英]How to exclude text indexed from PDF in solr query

原文 2017-05-29 02:55:20 8 3 pdf/ indexing/ solr

我有一個從PDF文件目錄生成的Solr索引，並具有與PDF文件本身相關的元數據字段。 不過，我仍想為我的用戶提供一個選項，以在查詢中排除從PDF內索引的任何文本。 這樣一來，查詢結果將基於元數據字段，而不會受到pdf文件中大量文本的影響。

我想過也許有兩個索引（核心）-一個帶有索引的pdf文件，另一個沒有。

還有另一種方法嗎？

3 個解決方案

聽起來您正在對默認字段進行常規搜索。 這意味着您有很多copyField指令（或只有一個copyField *->文本），其中包括PDF內容字段。

您可以創建第二個目標，並將除了PDF內容字段之外的所有內容都復制到該字段中。 這樣，用戶可以搜索或搜索另一個組合字段。

但是，請記住，這將根據目標字段的分析鏈來解析所有內容。 因此，帶有源字段列表的eDisMax可能是一種更好的方法。 而且，請記住，您可以使用多個請求處理程序（例如“ select”）並在那里定義不同的默認參數。 這通常會使客戶端代碼更容易些。

您不需要使用2個單獨的索引。 您可以使用edismax解析器並在查詢時指定qf參數。 這將有助於確定要搜索的字段。

您可以查看字段別名

如果您有3個索引字段

pdf元
pdf文本

然后您可以創建兩個字段別名

快速搜索：pdfmeta
Fullsearch：pdfmeta，pdftext

在qf上使用字段別名的一個優勢是，如果您的用戶具有q = quicksearch：value之類的書簽，則可以更改別名以進行快速搜索，而不會影響用戶的書簽。

Solr：查找索引的pdf文檔的“文本”字段中的單詞計數

[英]Solr: Find words count for 'text' field of an indexed pdf document

使用Solr Cell搜索索引PDF時沒有結果

[英]No results when searching indexed PDF with Solr Cell

如何在 Angular 應用程序中顯示由 solr 索引的 PDF 文件，其中節點表示 ZDB974238714CA8ADE4FZ34A

[英]How to displaly PDF files which were indexed by solr in a Angular app with a node express API

如何將PDF文件從HDFS索引到Solr

[英]How to index pdf files from HDFS to Solr

pdf文件中的Solr查詢未返回突出顯示的內容

[英]Solr query in a pdf file, is not returning highlighting content

如何從PDF中提取文本？

[英]How to extract text from PDF?

Solr：使用tika /提取請求處理程序存儲來自擴展pdf的文本布局

[英]Solr: store Text Layout from extrected pdf with tika / extract request handler

如何打印與solr 7.6.0中的搜索查詢匹配的pdf的實際內容

[英]How to print the actual content of a pdf which matches the search query in solr 7.6.0

如何在 Apache Solr 上索引 PDF 文檔

[英]How to index PDF Document on Apache Solr

如何將 OCR 文本從一個 PDF 傳輸到另一個 PDF？

[英]How to transfer OCR text from one PDF to another PDF?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 Solr：查找索引的pdf文檔的“文本”字段中的單詞計數使用Solr Cell搜索索引PDF時沒有結果如何在 Angular 應用程序中顯示由 solr 索引的 PDF 文件，其中節點表示 ZDB974238714CA8ADE4FZ34A 如何將PDF文件從HDFS索引到Solr pdf文件中的Solr查詢未返回突出顯示的內容如何從PDF中提取文本？ Solr：使用tika /提取請求處理程序存儲來自擴展pdf的文本布局如何打印與solr 7.6.0中的搜索查詢匹配的pdf的實際內容如何在 Apache Solr 上索引 PDF 文檔如何將 OCR 文本從一個 PDF 傳輸到另一個 PDF？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM