标签[lucene] - 堆栈内存溢出

如何在 elasticsearch 中评估精确匹配高于词频的值？ - How to value exact match higher than term frequency in elasticsearch?

我有一个包含多个标题字段的索引。 main_title、sub_titles、preferred_titles 等。这些文本字段还有一个建议字段，我在每个字段中运行一个使用 edge-n-gram 分词器的自定义分析器，以便我们可以在键入时进行搜索。我想重视完全匹配而不是词频。 main_ ...

如何生成 _id 像 elasticsearch 但对于 apache lucene？ - How to generate _id like elasticsearch but for apache lucene?

我想在 apache Lucene 中以相同的方式生成 Elasticsearch 文档的 _id，使 _id 像 Elasticsearch 但在 Apache Lucene 中。我该怎么做？在哪里可以找到生成 Elasticsearch _id 的算法？ ...

语境：我们在移动应用程序中使用 Azure 认知服务来搜索患者诊断代码（ICD10 代码）。 ICD10 代码表大约有 94,000 个项目。对于任何感兴趣的人，这里都有一个列表。我们目前在诊断描述字段上设置了一个标准的 Lucene 分析器要求：我们希望提供真正好的“边输入边搜索”体验 ...

在 lucene.net 中检查并获取完全匹配 - Check and fetch the exact match in lucene.net

我尝试使用 PhraseQuery 和 MultiPhraseQuery 来查找精确的行匹配。它正在拉取类似于通配符搜索的记录。也尝试使用 Index.Not_Analysed 但没有运气。数据如下所示：当我用“Organic Sauce”搜索时，它应该获取 record1，但由于匹配，它获 ...

使用 Hibernate 搜索创建和使用 LuceneAnalysisDefinitionProvider - Creating and using LuceneAnalysisDefinitionProvider with Hibernate Search

当您在 Stackoverflow 或 Inte.net 上搜索LuceneAnalysisDefinitionProvider ，您会发现数百个页面，每个页面都有从另一个页面复制的相同代码，但没有任何恰当的解释或进一步的用法示例。所以我尝试自己做，但失败了。这是我的代码：现在我们有了Cus ...

elasticsearch 中的 uax_url_email tokenizer 为具有特殊字符的电子邮件生成多个令牌 - uax_url_email tokenizer in elasticsearch generates multiple tokens for emails with special characters

我对索引中的 email 字段使用 uax_url_email 分词器。它工作完美并为普通电子邮件生成单个令牌，如 johndoe@yahoo.com。但是，当 email 包含外来字符或特殊字符时，它会生成多个标记。有解决办法吗？我不想生成多个令牌PUT email-test-index ...

Neo4j 全文检索。不要多次得分同一个词 - Neo4j fulltext search. Don't score same word multiple times

我对 neo4j 全文搜索有疑问。我目前正在处理一个包含很多物种名称的数据库，我遇到了一些我试图避免的行为。考虑一个带有 3 个节点的新 neo4j 数据库（链接到沙箱）。和一个全文索引如果我现在运行以下搜索：您会发现以下内容： 0.08451353758573532，“（拟南芥 x 拟 ...

当我将 SOLR 重新指向数据库副本时，是否需要重新索引？ - Do I need to reindex when I repoint SOLR to the copy of a database?

我目前使用的是 SOLR 6，包含在 alfresco 搜索服务 2.0 中我有一个完全索引的 S3 数据库，但我现在已经制作了该数据库的副本。数据库是不同的，但是存储在数据库中的所有文档都是相同的。将 SOLR 服务器重新指向这个新数据库是否需要重新索引？或者 SOLR 是否能够检测到相同 ...

如何使用他们的开发工具从 elasticsearch 文档中的值中删除 substring？ - How do I remove a substring from a value in an elasticsearch document using their devtools?

如果每个文档的值类似于： https://test.com/MODIF-RRS/D:/D-KGQLUL34TURWW-MODIF-AGENT04/_work/1179/s/test/code.cs我想删除 D:/D-KGQLUL34TURWW-MODIF-AGENT04 /_work/1179/ ...

如何使用 Lucene 的 DistinctValuesCollector？ - How to use Lucene's DistinctValuesCollector?

我的目标是收集 select 字段的不同值，以将它们作为前端的过滤器选项提供。 DistinctValuesCollector似乎是用于此的工具，但是由于除了 Javadoc 之外我还没有找到代码示例和文档，所以我目前无法正确构造此收集器。谁能举个例子？这是我的尝试，它没有提供字段PROJE ...

Solr 中的电话号码同义词过滤器/分词器？ - A phone number synonym-like filter/tokenizer in Solr?

我正在尝试使用如下查询使 Solr 搜索像这样+79876543210存储的电话号码：这只是一个例子。另一个是有线电话号码：我可以解决这个问题的一种方法是使用一个单独的字段，其中填充了这些变体并且仅在搜索期间使用。但这在突出显示方面存在问题（它返回<em>123456</ ...

使用 Hibernate 在子实体上使用日期范围过滤器查找父实体在 Spring 引导中搜索 - Find parent entity using date range filter on child entities with Hibernate Search in Spring Boot

这是一个带有 Hibernate 搜索的 Spring 引导。底层数据库是 MySQL。主实体Article有一组子实体： Set<Price> 。每个Price都有一个指向Country实体、 Store实体、数字amount和可选date-begin和可选date-end的链接 ...

sbt-assembly 和 Lucene “不存在名称为‘Lucene94’的 org.apache.lucene.codecs.Codec 类型的 SPI 类。”异常 - sbt-assembly and Lucene "An SPI class of type org.apache.lucene.codecs.Codec with name 'Lucene94' does not exist.¨ exception

操作系统：Ubuntu 22.10 java：openjdk 版本“19.0.1” 2022-10-18 scala：2.13.10 Apache Lucene：9.4.2 我采用了 Lucene 文档示例并将其转换为 Scala 程序：如果我使用以下 sbt 文件：编译给我错误：所以我在 s ...

用于过滤和排序的 lucene .net 解析器 - lucene .net parser for filter and sorting

赏金将在 6 天后到期。此问题的答案有资格获得+200声望赏金。 SvenG想让更多人关注这个问题。在我们基于 lucene .net 的搜索 (Lucene 4.8.0-beta00016) 中，我们将生成的查询、过滤器和排序保存在自定义文本文件中。例如：我们构建了一个类似于 Luke ...

apache/lucenenet 无法限制内存使用 - IndexWriterConfig 中的 RAMBufferSizeMB、RAMPerThreadHardLimitMB 和 MaxBufferedDocs 无效 - apache/lucenenet Unable to limit memory usage - RAMBufferSizeMB, RAMPerThreadHardLimitMB, and MaxBufferedDocs in IndexWriterConfig has no effect

请注意，我还在 GitHub 上的 repo 上发布了一个问题： https ://github.com/apache/lucenenet/issues/784 我正在运行最新的 Lucene .NET 版本： Lucene.Net 4.8.0-beta00016 Lucene.Net.Anal ...

布尔运算符的 Lucene 运算符优先级 - Lucene operator precedence for boolean operators

布尔运算符的运算顺序是什么？左到右？右到左？特定运营商有更高的优先级？例如，如果我搜索：jakarta OR apache AND website 我能得到什么？是“jakarta”的任何内容，还是“apache”和“website”的任何内容？任何带有“网站”的东西也有“jakarta ...

Neo4j Lucene 全文检索及文中关键词提取 - Neo4j Lucene full-text search and keyword extraction from the text

我有 Neo4j FULLTEXT INDEX和 ~60k 记录（关键字）。这是我的关键词词汇表。我需要从不同的输入文本中提取所有可能的关键字（存在于该索引中）。这可以用 Neo4j、Cypher、APOC 来实现吗？更新例如有一段文字：在具有FULLTEXT INDEX的 Neo4j 数 ...

相同 Tokenizers 的搜索结果差异从 solr 5 到 8 - Search result difference for the same Tokenizers from solr 5 to 8

我有索引记录，其中包含一个名为出生日期的文件，它不是存储字段，也不是日期字段，它是一个文本字段 (solr.TextField)，带有“标准标记器”。在 solr 5 当我做了一个搜索查询q=*:*&fq=birth_date:1989/01/01 我过滤了 33 条奇怪的记录，但是当我 ...

lucene中的“OR”查询 - "OR" query in lucene

我正在尝试设计一个电影数据库的信息检索系统。我想按标题搜索，所以当我搜索“Cobra Kai”时，我的分析器将这个字符串分解为“cobra kai”、“cobra”和“kai”以进行更好的配对。所以我的问题是我必须执行这样的查询：“cobra kai”或“cobra”或“kai”，但它对我不起作 ...

ElasticSearch 查询不适用于仅 2 个字符 - ElasticSearch query is not working with only 2 characters

我有一个包含此映射定义的字段该字段的值类似于22-001 、 22-002等我正在对 ElasticSearch 进行以下查询此查询返回 0 个结果。将simple_query_string query更改为22001或22-001将返回相关结果。有人可以向我解释为什么只有 2 个字符的原 ...