cost 234 ms
如何在 elasticsearch 中評估精確匹配高於詞頻的值?

[英]How to value exact match higher than term frequency in elasticsearch?

我有一個包含多個標題字段的索引。 main_title、sub_titles、preferred_titles 等。 這些文本字段還有一個建議字段,我在每個字段中運行一個使用 edge-n-gram 分詞器的自定義分析器,以便我們可以在鍵入時進行搜索。 我想重視完全匹配而不是詞頻。 main_ ...

獲取搜索建議以處理 2 個(或更多)不連續的單詞(以改進對醫療條件列表的搜索 - ICD10 代碼)

[英]Getting search suggestions to work on 2 (or more) non-consecutive words (to improve search on a medical conditions list - ICD10 codes)

語境: 我們在移動應用程序中使用 Azure 認知服務來搜索患者診斷代碼(ICD10 代碼)。 ICD10 代碼表大約有 94,000 個項目。 對於任何感興趣的人,這里都有一個列表。 我們目前在診斷描述字段上設置了一個標准的 Lucene 分析器要求: 我們希望提供真正好的“邊輸入邊搜索”體驗 ...

在 lucene.net 中檢查並獲取完全匹配

[英]Check and fetch the exact match in lucene.net

我嘗試使用 PhraseQuery 和 MultiPhraseQuery 來查找精確的行匹配。 它正在拉取類似於通配符搜索的記錄。 也嘗試使用 Index.Not_Analysed 但沒有運氣。 數據如下所示: 當我用“Organic Sauce”搜索時,它應該獲取 record1,但由於匹配,它獲 ...

使用 Hibernate 搜索創建和使用 LuceneAnalysisDefinitionProvider

[英]Creating and using LuceneAnalysisDefinitionProvider with Hibernate Search

當您在 Stackoverflow 或 Inte.net 上搜索LuceneAnalysisDefinitionProvider ,您會發現數百個頁面,每個頁面都有從另一個頁面復制的相同代碼,但沒有任何恰當的解釋或進一步的用法示例。 所以我嘗試自己做,但失敗了。 這是我的代碼: 現在我們有了Cus ...

elasticsearch 中的 uax_url_email tokenizer 為具有特殊字符的電子郵件生成多個令牌

[英]uax_url_email tokenizer in elasticsearch generates multiple tokens for emails with special characters

我對索引中的 email 字段使用 uax_url_email 分詞器。 它工作完美並為普通電子郵件生成單個令牌,如 johndoe@yahoo.com。 但是,當 email 包含外來字符或特殊字符時,它會生成多個標記。 有解決辦法嗎? 我不想生成多個令牌PUT email-test-index ...

Neo4j 全文檢索。 不要多次得分同一個詞

[英]Neo4j fulltext search. Don't score same word multiple times

我對 neo4j 全文搜索有疑問。 我目前正在處理一個包含很多物種名稱的數據庫,我遇到了一些我試圖避免的行為。 考慮一個帶有 3 個節點的新 neo4j 數據庫(鏈接到沙箱)。 和一個全文索引 如果我現在運行以下搜索: 您會發現以下內容: 0.08451353758573532,“(擬南芥 x 擬 ...

當我將 SOLR 重新指向數據庫副本時,是否需要重新索引?

[英]Do I need to reindex when I repoint SOLR to the copy of a database?

我目前使用的是 SOLR 6,包含在 alfresco 搜索服務 2.0 中我有一個完全索引的 S3 數據庫,但我現在已經制作了該數據庫的副本。 數據庫是不同的,但是存儲在數據庫中的所有文檔都是相同的。 將 SOLR 服務器重新指向這個新數據庫是否需要重新索引? 或者 SOLR 是否能夠檢測到相同 ...

如何使用 Lucene 的 DistinctValuesCollector?

[英]How to use Lucene's DistinctValuesCollector?

我的目標是收集 select 字段的不同值,以將它們作為前端的過濾器選項提供。 DistinctValuesCollector似乎是用於此的工具,但是由於除了 Javadoc 之外我還沒有找到代碼示例和文檔,所以我目前無法正確構造此收集器。 誰能舉個例子? 這是我的嘗試,它沒有提供字段PROJE ...

Solr 中的電話號碼同義詞過濾器/分詞器?

[英]A phone number synonym-like filter/tokenizer in Solr?

我正在嘗試使用如下查詢使 Solr 搜索像這樣+79876543210存儲的電話號碼: 這只是一個例子。 另一個是有線電話號碼: 我可以解決這個問題的一種方法是使用一個單獨的字段,其中填充了這些變體並且僅在搜索期間使用。 但這在突出顯示方面存在問題(它返回<em>123456</ ...

使用 Hibernate 在子實體上使用日期范圍過濾器查找父實體 在 Spring 引導中搜索

[英]Find parent entity using date range filter on child entities with Hibernate Search in Spring Boot

這是一個帶有 Hibernate 搜索的 Spring 引導。 底層數據庫是 MySQL。 主實體Article有一組子實體: Set<Price> 。 每個Price都有一個指向Country實體、 Store實體、數字amount和可選date-begin和可選date-end的鏈接 ...

sbt-assembly 和 Lucene “不存在名稱為‘Lucene94’的 org.apache.lucene.codecs.Codec 類型的 SPI 類。”異常

[英]sbt-assembly and Lucene "An SPI class of type org.apache.lucene.codecs.Codec with name 'Lucene94' does not exist.¨ exception

操作系統:Ubuntu 22.10 java:openjdk 版本“19.0.1” 2022-10-18 scala:2.13.10 Apache Lucene:9.4.2 我采用了 Lucene 文檔示例並將其轉換為 Scala 程序: 如果我使用以下 sbt 文件: 編譯給我錯誤: 所以我在 s ...

用於過濾和排序的 lucene .net 解析器

[英]lucene .net parser for filter and sorting

賞金將在 6 天后到期。 此問題的答案有資格獲得+200聲望賞金。 SvenG想讓更多人關注這個問題。 在我們基於 lucene .net 的搜索 (Lucene 4.8.0-beta00016) 中,我們將生成的查詢、過濾器和排序保存在自定義文本文件中。 例如: 我們構建了一個類似於 Luke ...

apache/lucenenet 無法限制內存使用 - IndexWriterConfig 中的 RAMBufferSizeMB、RAMPerThreadHardLimitMB 和 MaxBufferedDocs 無效

[英]apache/lucenenet Unable to limit memory usage - RAMBufferSizeMB, RAMPerThreadHardLimitMB, and MaxBufferedDocs in IndexWriterConfig has no effect

請注意,我還在 GitHub 上的 repo 上發布了一個問題: https ://github.com/apache/lucenenet/issues/784 我正在運行最新的 Lucene .NET 版本: Lucene.Net 4.8.0-beta00016 Lucene.Net.Anal ...

布爾運算符的 Lucene 運算符優先級

[英]Lucene operator precedence for boolean operators

布爾運算符的運算順序是什么? 左到右? 右到左? 特定運營商有更高的優先級? 例如,如果我搜索:jakarta OR apache AND website 我能得到什么? 是“jakarta”的任何內容,還是“apache”和“website”的任何內容? 任何帶有“網站”的東西也有“jakarta ...

Neo4j Lucene 全文檢索及文中關鍵詞提取

[英]Neo4j Lucene full-text search and keyword extraction from the text

我有 Neo4j FULLTEXT INDEX和 ~60k 記錄(關鍵字)。 這是我的關鍵詞詞匯表。 我需要從不同的輸入文本中提取所有可能的關鍵字(存在於該索引中)。 這可以用 Neo4j、Cypher、APOC 來實現嗎? 更新例如有一段文字: 在具有FULLTEXT INDEX的 Neo4j 數 ...

相同 Tokenizers 的搜索結果差異從 solr 5 到 8

[英]Search result difference for the same Tokenizers from solr 5 to 8

我有索引記錄,其中包含一個名為出生日期的文件,它不是存儲字段,也不是日期字段,它是一個文本字段 (solr.TextField),帶有“標准標記器”。 在 solr 5 當我做了一個搜索查詢q=*:*&fq=birth_date:1989/01/01 我過濾了 33 條奇怪的記錄,但是當我 ...

lucene中的“OR”查詢

[英]"OR" query in lucene

我正在嘗試設計一個電影數據庫的信息檢索系統。 我想按標題搜索,所以當我搜索“Cobra Kai”時,我的分析器將這個字符串分解為“cobra kai”、“cobra”和“kai”以進行更好的配對。 所以我的問題是我必須執行這樣的查詢:“cobra kai”或“cobra”或“kai”,但它對我不起作 ...

2022-11-26 11:35:06   1   44    java / lucene  
ElasticSearch 查詢不適用於僅 2 個字符

[英]ElasticSearch query is not working with only 2 characters

我有一個包含此映射定義的字段 該字段的值類似於22-001 、 22-002等 我正在對 ElasticSearch 進行以下查詢 此查詢返回 0 個結果。 將simple_query_string query更改為22001或22-001將返回相關結果。 有人可以向我解釋為什么只有 2 個字符的原 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM