我有一个包含多个标题字段的索引。 main_title、sub_titles、preferred_titles 等。 这些文本字段还有一个建议字段,我在每个字段中运行一个使用 edge-n-gram 分词器的自定义分析器,以便我们可以在键入时进行搜索。 我想重视完全匹配而不是词频。 main_ ...
我有一个包含多个标题字段的索引。 main_title、sub_titles、preferred_titles 等。 这些文本字段还有一个建议字段,我在每个字段中运行一个使用 edge-n-gram 分词器的自定义分析器,以便我们可以在键入时进行搜索。 我想重视完全匹配而不是词频。 main_ ...
我想在 apache Lucene 中以相同的方式生成 Elasticsearch 文档的 _id,使 _id 像 Elasticsearch 但在 Apache Lucene 中。我该怎么做? 在哪里可以找到生成 Elasticsearch _id 的算法? ...
语境: 我们在移动应用程序中使用 Azure 认知服务来搜索患者诊断代码(ICD10 代码)。 ICD10 代码表大约有 94,000 个项目。 对于任何感兴趣的人,这里都有一个列表。 我们目前在诊断描述字段上设置了一个标准的 Lucene 分析器要求: 我们希望提供真正好的“边输入边搜索”体验 ...
我尝试使用 PhraseQuery 和 MultiPhraseQuery 来查找精确的行匹配。 它正在拉取类似于通配符搜索的记录。 也尝试使用 Index.Not_Analysed 但没有运气。 数据如下所示: 当我用“Organic Sauce”搜索时,它应该获取 record1,但由于匹配,它获 ...
当您在 Stackoverflow 或 Inte.net 上搜索LuceneAnalysisDefinitionProvider ,您会发现数百个页面,每个页面都有从另一个页面复制的相同代码,但没有任何恰当的解释或进一步的用法示例。 所以我尝试自己做,但失败了。 这是我的代码: 现在我们有了Cus ...
我对索引中的 email 字段使用 uax_url_email 分词器。 它工作完美并为普通电子邮件生成单个令牌,如 johndoe@yahoo.com。 但是,当 email 包含外来字符或特殊字符时,它会生成多个标记。 有解决办法吗? 我不想生成多个令牌PUT email-test-index ...
我对 neo4j 全文搜索有疑问。 我目前正在处理一个包含很多物种名称的数据库,我遇到了一些我试图避免的行为。 考虑一个带有 3 个节点的新 neo4j 数据库(链接到沙箱)。 和一个全文索引 如果我现在运行以下搜索: 您会发现以下内容: 0.08451353758573532,“(拟南芥 x 拟 ...
我目前使用的是 SOLR 6,包含在 alfresco 搜索服务 2.0 中我有一个完全索引的 S3 数据库,但我现在已经制作了该数据库的副本。 数据库是不同的,但是存储在数据库中的所有文档都是相同的。 将 SOLR 服务器重新指向这个新数据库是否需要重新索引? 或者 SOLR 是否能够检测到相同 ...
如果每个文档的值类似于: https://test.com/MODIF-RRS/D:/D-KGQLUL34TURWW-MODIF-AGENT04/_work/1179/s/test/code.cs我想删除 D:/D-KGQLUL34TURWW-MODIF-AGENT04 /_work/1179/ ...
我的目标是收集 select 字段的不同值,以将它们作为前端的过滤器选项提供。 DistinctValuesCollector似乎是用于此的工具,但是由于除了 Javadoc 之外我还没有找到代码示例和文档,所以我目前无法正确构造此收集器。 谁能举个例子? 这是我的尝试,它没有提供字段PROJE ...
我正在尝试使用如下查询使 Solr 搜索像这样+79876543210存储的电话号码: 这只是一个例子。 另一个是有线电话号码: 我可以解决这个问题的一种方法是使用一个单独的字段,其中填充了这些变体并且仅在搜索期间使用。 但这在突出显示方面存在问题(它返回<em>123456</ ...
这是一个带有 Hibernate 搜索的 Spring 引导。 底层数据库是 MySQL。 主实体Article有一组子实体: Set<Price> 。 每个Price都有一个指向Country实体、 Store实体、数字amount和可选date-begin和可选date-end的链接 ...
操作系统:Ubuntu 22.10 java:openjdk 版本“19.0.1” 2022-10-18 scala:2.13.10 Apache Lucene:9.4.2 我采用了 Lucene 文档示例并将其转换为 Scala 程序: 如果我使用以下 sbt 文件: 编译给我错误: 所以我在 s ...
赏金将在 6 天后到期。 此问题的答案有资格获得+200声望赏金。 SvenG想让更多人关注这个问题。 在我们基于 lucene .net 的搜索 (Lucene 4.8.0-beta00016) 中,我们将生成的查询、过滤器和排序保存在自定义文本文件中。 例如: 我们构建了一个类似于 Luke ...
请注意,我还在 GitHub 上的 repo 上发布了一个问题: https ://github.com/apache/lucenenet/issues/784 我正在运行最新的 Lucene .NET 版本: Lucene.Net 4.8.0-beta00016 Lucene.Net.Anal ...
布尔运算符的运算顺序是什么? 左到右? 右到左? 特定运营商有更高的优先级? 例如,如果我搜索:jakarta OR apache AND website 我能得到什么? 是“jakarta”的任何内容,还是“apache”和“website”的任何内容? 任何带有“网站”的东西也有“jakarta ...
我有 Neo4j FULLTEXT INDEX和 ~60k 记录(关键字)。 这是我的关键词词汇表。 我需要从不同的输入文本中提取所有可能的关键字(存在于该索引中)。 这可以用 Neo4j、Cypher、APOC 来实现吗? 更新例如有一段文字: 在具有FULLTEXT INDEX的 Neo4j 数 ...
我有索引记录,其中包含一个名为出生日期的文件,它不是存储字段,也不是日期字段,它是一个文本字段 (solr.TextField),带有“标准标记器”。 在 solr 5 当我做了一个搜索查询q=*:*&fq=birth_date:1989/01/01 我过滤了 33 条奇怪的记录,但是当我 ...
我正在尝试设计一个电影数据库的信息检索系统。 我想按标题搜索,所以当我搜索“Cobra Kai”时,我的分析器将这个字符串分解为“cobra kai”、“cobra”和“kai”以进行更好的配对。 所以我的问题是我必须执行这样的查询:“cobra kai”或“cobra”或“kai”,但它对我不起作 ...
我有一个包含此映射定义的字段 该字段的值类似于22-001 、 22-002等 我正在对 ElasticSearch 进行以下查询 此查询返回 0 个结果。 将simple_query_string query更改为22001或22-001将返回相关结果。 有人可以向我解释为什么只有 2 个字符的原 ...