繁体 English 中英

如何在Solr查询中排除从PDF索引的文本

[英]How to exclude text indexed from PDF in solr query

原文 2017-05-29 02:55:20 4 3 pdf/ indexing/ solr

我有一个从PDF文件目录生成的Solr索引，并具有与PDF文件本身相关的元数据字段。 不过，我仍想为我的用户提供一个选项，以在查询中排除从PDF内索引的任何文本。 这样一来，查询结果将基于元数据字段，而不会受到pdf文件中大量文本的影响。

我想过也许有两个索引（核心）-一个带有索引的pdf文件，另一个没有。

还有另一种方法吗？

3 个解决方案

听起来您正在对默认字段进行常规搜索。 这意味着您有很多copyField指令（或只有一个copyField *->文本），其中包括PDF内容字段。

您可以创建第二个目标，并将除了PDF内容字段之外的所有内容都复制到该字段中。 这样，用户可以搜索或搜索另一个组合字段。

但是，请记住，这将根据目标字段的分析链来解析所有内容。 因此，带有源字段列表的eDisMax可能是一种更好的方法。 而且，请记住，您可以使用多个请求处理程序（例如“ select”）并在那里定义不同的默认参数。 这通常会使客户端代码更容易些。

您不需要使用2个单独的索引。 您可以使用edismax解析器并在查询时指定qf参数。 这将有助于确定要搜索的字段。

您可以查看字段别名

如果您有3个索引字段

pdf元
pdf文本

然后您可以创建两个字段别名

快速搜索：pdfmeta
Fullsearch：pdfmeta，pdftext

在qf上使用字段别名的一个优势是，如果您的用户具有q = quicksearch：value之类的书签，则可以更改别名以进行快速搜索，而不会影响用户的书签。

Solr：查找索引的pdf文档的“文本”字段中的单词计数

[英]Solr: Find words count for 'text' field of an indexed pdf document

使用Solr Cell搜索索引PDF时没有结果

[英]No results when searching indexed PDF with Solr Cell

如何在 Angular 应用程序中显示由 solr 索引的 PDF 文件，其中节点表示 ZDB974238714CA8ADE4FZ34A

[英]How to displaly PDF files which were indexed by solr in a Angular app with a node express API

如何将PDF文件从HDFS索引到Solr

[英]How to index pdf files from HDFS to Solr

pdf文件中的Solr查询未返回突出显示的内容

[英]Solr query in a pdf file, is not returning highlighting content

如何从PDF中提取文本？

[英]How to extract text from PDF?

Solr：使用tika /提取请求处理程序存储来自扩展pdf的文本布局

[英]Solr: store Text Layout from extrected pdf with tika / extract request handler

如何打印与solr 7.6.0中的搜索查询匹配的pdf的实际内容

[英]How to print the actual content of a pdf which matches the search query in solr 7.6.0

如何在 Apache Solr 上索引 PDF 文档

[英]How to index PDF Document on Apache Solr

如何将 OCR 文本从一个 PDF 传输到另一个 PDF？

[英]How to transfer OCR text from one PDF to another PDF?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Solr：查找索引的pdf文档的“文本”字段中的单词计数使用Solr Cell搜索索引PDF时没有结果如何在 Angular 应用程序中显示由 solr 索引的 PDF 文件，其中节点表示 ZDB974238714CA8ADE4FZ34A 如何将PDF文件从HDFS索引到Solr pdf文件中的Solr查询未返回突出显示的内容如何从PDF中提取文本？ Solr：使用tika /提取请求处理程序存储来自扩展pdf的文本布局如何打印与solr 7.6.0中的搜索查询匹配的pdf的实际内容如何在 Apache Solr 上索引 PDF 文档如何将 OCR 文本从一个 PDF 传输到另一个 PDF？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM