cost 195 ms
如何在 elasticsearch 中评估精确匹配高于词频的值? - How to value exact match higher than term frequency in elasticsearch?

我有一个包含多个标题字段的索引。 main_title、sub_titles、preferred_titles 等。 这些文本字段还有一个建议字段,我在每个字段中运行一个使用 edge-n-gram 分词器的自定义分析器,以便我们可以在键入时进行搜索。 我想重视完全匹配而不是词频。 main_ ...

获取搜索建议以处理 2 个(或更多)不连续的单词(以改进对医疗条件列表的搜索 - ICD10 代码) - Getting search suggestions to work on 2 (or more) non-consecutive words (to improve search on a medical conditions list - ICD10 codes)

语境: 我们在移动应用程序中使用 Azure 认知服务来搜索患者诊断代码(ICD10 代码)。 ICD10 代码表大约有 94,000 个项目。 对于任何感兴趣的人,这里都有一个列表。 我们目前在诊断描述字段上设置了一个标准的 Lucene 分析器要求: 我们希望提供真正好的“边输入边搜索”体验 ...

使用 Hibernate 搜索创建和使用 LuceneAnalysisDefinitionProvider - Creating and using LuceneAnalysisDefinitionProvider with Hibernate Search

当您在 Stackoverflow 或 Inte.net 上搜索LuceneAnalysisDefinitionProvider ,您会发现数百个页面,每个页面都有从另一个页面复制的相同代码,但没有任何恰当的解释或进一步的用法示例。 所以我尝试自己做,但失败了。 这是我的代码: 现在我们有了Cus ...

elasticsearch 中的 uax_url_email tokenizer 为具有特殊字符的电子邮件生成多个令牌 - uax_url_email tokenizer in elasticsearch generates multiple tokens for emails with special characters

我对索引中的 email 字段使用 uax_url_email 分词器。 它工作完美并为普通电子邮件生成单个令牌,如 johndoe@yahoo.com。 但是,当 email 包含外来字符或特殊字符时,它会生成多个标记。 有解决办法吗? 我不想生成多个令牌PUT email-test-index ...

Neo4j 全文检索。 不要多次得分同一个词 - Neo4j fulltext search. Don't score same word multiple times

我对 neo4j 全文搜索有疑问。 我目前正在处理一个包含很多物种名称的数据库,我遇到了一些我试图避免的行为。 考虑一个带有 3 个节点的新 neo4j 数据库(链接到沙箱)。 和一个全文索引 如果我现在运行以下搜索: 您会发现以下内容: 0.08451353758573532,“(拟南芥 x 拟 ...

当我将 SOLR 重新指向数据库副本时,是否需要重新索引? - Do I need to reindex when I repoint SOLR to the copy of a database?

我目前使用的是 SOLR 6,包含在 alfresco 搜索服务 2.0 中我有一个完全索引的 S3 数据库,但我现在已经制作了该数据库的副本。 数据库是不同的,但是存储在数据库中的所有文档都是相同的。 将 SOLR 服务器重新指向这个新数据库是否需要重新索引? 或者 SOLR 是否能够检测到相同 ...

如何使用 Lucene 的 DistinctValuesCollector? - How to use Lucene's DistinctValuesCollector?

我的目标是收集 select 字段的不同值,以将它们作为前端的过滤器选项提供。 DistinctValuesCollector似乎是用于此的工具,但是由于除了 Javadoc 之外我还没有找到代码示例和文档,所以我目前无法正确构造此收集器。 谁能举个例子? 这是我的尝试,它没有提供字段PROJE ...

Solr 中的电话号码同义词过滤器/分词器? - A phone number synonym-like filter/tokenizer in Solr?

我正在尝试使用如下查询使 Solr 搜索像这样+79876543210存储的电话号码: 这只是一个例子。 另一个是有线电话号码: 我可以解决这个问题的一种方法是使用一个单独的字段,其中填充了这些变体并且仅在搜索期间使用。 但这在突出显示方面存在问题(它返回<em>123456</ ...

使用 Hibernate 在子实体上使用日期范围过滤器查找父实体 在 Spring 引导中搜索 - Find parent entity using date range filter on child entities with Hibernate Search in Spring Boot

这是一个带有 Hibernate 搜索的 Spring 引导。 底层数据库是 MySQL。 主实体Article有一组子实体: Set<Price> 。 每个Price都有一个指向Country实体、 Store实体、数字amount和可选date-begin和可选date-end的链接 ...

sbt-assembly 和 Lucene “不存在名称为‘Lucene94’的 org.apache.lucene.codecs.Codec 类型的 SPI 类。”异常 - sbt-assembly and Lucene "An SPI class of type org.apache.lucene.codecs.Codec with name 'Lucene94' does not exist.¨ exception

操作系统:Ubuntu 22.10 java:openjdk 版本“19.0.1” 2022-10-18 scala:2.13.10 Apache Lucene:9.4.2 我采用了 Lucene 文档示例并将其转换为 Scala 程序: 如果我使用以下 sbt 文件: 编译给我错误: 所以我在 s ...

apache/lucenenet 无法限制内存使用 - IndexWriterConfig 中的 RAMBufferSizeMB、RAMPerThreadHardLimitMB 和 MaxBufferedDocs 无效 - apache/lucenenet Unable to limit memory usage - RAMBufferSizeMB, RAMPerThreadHardLimitMB, and MaxBufferedDocs in IndexWriterConfig has no effect

请注意,我还在 GitHub 上的 repo 上发布了一个问题: https ://github.com/apache/lucenenet/issues/784 我正在运行最新的 Lucene .NET 版本: Lucene.Net 4.8.0-beta00016 Lucene.Net.Anal ...

布尔运算符的 Lucene 运算符优先级 - Lucene operator precedence for boolean operators

布尔运算符的运算顺序是什么? 左到右? 右到左? 特定运营商有更高的优先级? 例如,如果我搜索:jakarta OR apache AND website 我能得到什么? 是“jakarta”的任何内容,还是“apache”和“website”的任何内容? 任何带有“网站”的东西也有“jakarta ...

Neo4j Lucene 全文检索及文中关键词提取 - Neo4j Lucene full-text search and keyword extraction from the text

我有 Neo4j FULLTEXT INDEX和 ~60k 记录(关键字)。 这是我的关键词词汇表。 我需要从不同的输入文本中提取所有可能的关键字(存在于该索引中)。 这可以用 Neo4j、Cypher、APOC 来实现吗? 更新例如有一段文字: 在具有FULLTEXT INDEX的 Neo4j 数 ...

相同 Tokenizers 的搜索结果差异从 solr 5 到 8 - Search result difference for the same Tokenizers from solr 5 to 8

我有索引记录,其中包含一个名为出生日期的文件,它不是存储字段,也不是日期字段,它是一个文本字段 (solr.TextField),带有“标准标记器”。 在 solr 5 当我做了一个搜索查询q=*:*&fq=birth_date:1989/01/01 我过滤了 33 条奇怪的记录,但是当我 ...

lucene中的“OR”查询 - "OR" query in lucene

我正在尝试设计一个电影数据库的信息检索系统。 我想按标题搜索,所以当我搜索“Cobra Kai”时,我的分析器将这个字符串分解为“cobra kai”、“cobra”和“kai”以进行更好的配对。 所以我的问题是我必须执行这样的查询:“cobra kai”或“cobra”或“kai”,但它对我不起作 ...

2022-11-26 11:35:06   1   44    java / lucene  

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM