標簽[lucene] - 堆棧內存溢出

[英]How to value exact match higher than term frequency in elasticsearch?

我有一個包含多個標題字段的索引。 main_title、sub_titles、preferred_titles 等。這些文本字段還有一個建議字段，我在每個字段中運行一個使用 edge-n-gram 分詞器的自定義分析器，以便我們可以在鍵入時進行搜索。我想重視完全匹配而不是詞頻。 main_ ...

如何生成 _id 像 elasticsearch 但對於 apache lucene？

[英]How to generate _id like elasticsearch but for apache lucene?

我想在 apache Lucene 中以相同的方式生成 Elasticsearch 文檔的 _id，使 _id 像 Elasticsearch 但在 Apache Lucene 中。我該怎么做？在哪里可以找到生成 Elasticsearch _id 的算法？ ...

[英]Getting search suggestions to work on 2 (or more) non-consecutive words (to improve search on a medical conditions list - ICD10 codes)

語境：我們在移動應用程序中使用 Azure 認知服務來搜索患者診斷代碼（ICD10 代碼）。 ICD10 代碼表大約有 94,000 個項目。對於任何感興趣的人，這里都有一個列表。我們目前在診斷描述字段上設置了一個標准的 Lucene 分析器要求：我們希望提供真正好的“邊輸入邊搜索”體驗 ...

在 lucene.net 中檢查並獲取完全匹配

[英]Check and fetch the exact match in lucene.net

我嘗試使用 PhraseQuery 和 MultiPhraseQuery 來查找精確的行匹配。它正在拉取類似於通配符搜索的記錄。也嘗試使用 Index.Not_Analysed 但沒有運氣。數據如下所示：當我用“Organic Sauce”搜索時，它應該獲取 record1，但由於匹配，它獲 ...

使用 Hibernate 搜索創建和使用 LuceneAnalysisDefinitionProvider

[英]Creating and using LuceneAnalysisDefinitionProvider with Hibernate Search

當您在 Stackoverflow 或 Inte.net 上搜索LuceneAnalysisDefinitionProvider ，您會發現數百個頁面，每個頁面都有從另一個頁面復制的相同代碼，但沒有任何恰當的解釋或進一步的用法示例。所以我嘗試自己做，但失敗了。這是我的代碼：現在我們有了Cus ...

elasticsearch 中的 uax_url_email tokenizer 為具有特殊字符的電子郵件生成多個令牌

[英]uax_url_email tokenizer in elasticsearch generates multiple tokens for emails with special characters

我對索引中的 email 字段使用 uax_url_email 分詞器。它工作完美並為普通電子郵件生成單個令牌，如 johndoe@yahoo.com。但是，當 email 包含外來字符或特殊字符時，它會生成多個標記。有解決辦法嗎？我不想生成多個令牌PUT email-test-index ...

Neo4j 全文檢索。不要多次得分同一個詞

[英]Neo4j fulltext search. Don't score same word multiple times

我對 neo4j 全文搜索有疑問。我目前正在處理一個包含很多物種名稱的數據庫，我遇到了一些我試圖避免的行為。考慮一個帶有 3 個節點的新 neo4j 數據庫（鏈接到沙箱）。和一個全文索引如果我現在運行以下搜索：您會發現以下內容： 0.08451353758573532，“（擬南芥 x 擬 ...

當我將 SOLR 重新指向數據庫副本時，是否需要重新索引？

[英]Do I need to reindex when I repoint SOLR to the copy of a database?

我目前使用的是 SOLR 6，包含在 alfresco 搜索服務 2.0 中我有一個完全索引的 S3 數據庫，但我現在已經制作了該數據庫的副本。數據庫是不同的，但是存儲在數據庫中的所有文檔都是相同的。將 SOLR 服務器重新指向這個新數據庫是否需要重新索引？或者 SOLR 是否能夠檢測到相同 ...

如何使用他們的開發工具從 elasticsearch 文檔中的值中刪除 substring？

[英]How do I remove a substring from a value in an elasticsearch document using their devtools?

如果每個文檔的值類似於： https://test.com/MODIF-RRS/D:/D-KGQLUL34TURWW-MODIF-AGENT04/_work/1179/s/test/code.cs我想刪除 D:/D-KGQLUL34TURWW-MODIF-AGENT04 /_work/1179/ ...

如何使用 Lucene 的 DistinctValuesCollector？

[英]How to use Lucene's DistinctValuesCollector?

我的目標是收集 select 字段的不同值，以將它們作為前端的過濾器選項提供。 DistinctValuesCollector似乎是用於此的工具，但是由於除了 Javadoc 之外我還沒有找到代碼示例和文檔，所以我目前無法正確構造此收集器。誰能舉個例子？這是我的嘗試，它沒有提供字段PROJE ...

Solr 中的電話號碼同義詞過濾器/分詞器？

[英]A phone number synonym-like filter/tokenizer in Solr?

我正在嘗試使用如下查詢使 Solr 搜索像這樣+79876543210存儲的電話號碼：這只是一個例子。另一個是有線電話號碼：我可以解決這個問題的一種方法是使用一個單獨的字段，其中填充了這些變體並且僅在搜索期間使用。但這在突出顯示方面存在問題（它返回<em>123456</ ...

使用 Hibernate 在子實體上使用日期范圍過濾器查找父實體在 Spring 引導中搜索

[英]Find parent entity using date range filter on child entities with Hibernate Search in Spring Boot

這是一個帶有 Hibernate 搜索的 Spring 引導。底層數據庫是 MySQL。主實體Article有一組子實體： Set<Price> 。每個Price都有一個指向Country實體、 Store實體、數字amount和可選date-begin和可選date-end的鏈接 ...

sbt-assembly 和 Lucene “不存在名稱為‘Lucene94’的 org.apache.lucene.codecs.Codec 類型的 SPI 類。”異常

[英]sbt-assembly and Lucene "An SPI class of type org.apache.lucene.codecs.Codec with name 'Lucene94' does not exist.¨ exception

操作系統：Ubuntu 22.10 java：openjdk 版本“19.0.1” 2022-10-18 scala：2.13.10 Apache Lucene：9.4.2 我采用了 Lucene 文檔示例並將其轉換為 Scala 程序：如果我使用以下 sbt 文件：編譯給我錯誤：所以我在 s ...

用於過濾和排序的 lucene .net 解析器

[英]lucene .net parser for filter and sorting

賞金將在 6 天后到期。此問題的答案有資格獲得+200聲望賞金。 SvenG想讓更多人關注這個問題。在我們基於 lucene .net 的搜索 (Lucene 4.8.0-beta00016) 中，我們將生成的查詢、過濾器和排序保存在自定義文本文件中。例如：我們構建了一個類似於 Luke ...

apache/lucenenet 無法限制內存使用 - IndexWriterConfig 中的 RAMBufferSizeMB、RAMPerThreadHardLimitMB 和 MaxBufferedDocs 無效

[英]apache/lucenenet Unable to limit memory usage - RAMBufferSizeMB, RAMPerThreadHardLimitMB, and MaxBufferedDocs in IndexWriterConfig has no effect

請注意，我還在 GitHub 上的 repo 上發布了一個問題： https ://github.com/apache/lucenenet/issues/784 我正在運行最新的 Lucene .NET 版本： Lucene.Net 4.8.0-beta00016 Lucene.Net.Anal ...

布爾運算符的 Lucene 運算符優先級

[英]Lucene operator precedence for boolean operators

布爾運算符的運算順序是什么？左到右？右到左？特定運營商有更高的優先級？例如，如果我搜索：jakarta OR apache AND website 我能得到什么？是“jakarta”的任何內容，還是“apache”和“website”的任何內容？任何帶有“網站”的東西也有“jakarta ...

Neo4j Lucene 全文檢索及文中關鍵詞提取

[英]Neo4j Lucene full-text search and keyword extraction from the text

我有 Neo4j FULLTEXT INDEX和 ~60k 記錄（關鍵字）。這是我的關鍵詞詞匯表。我需要從不同的輸入文本中提取所有可能的關鍵字（存在於該索引中）。這可以用 Neo4j、Cypher、APOC 來實現嗎？更新例如有一段文字：在具有FULLTEXT INDEX的 Neo4j 數 ...

相同 Tokenizers 的搜索結果差異從 solr 5 到 8

[英]Search result difference for the same Tokenizers from solr 5 to 8

我有索引記錄，其中包含一個名為出生日期的文件，它不是存儲字段，也不是日期字段，它是一個文本字段 (solr.TextField)，帶有“標准標記器”。在 solr 5 當我做了一個搜索查詢q=*:*&fq=birth_date:1989/01/01 我過濾了 33 條奇怪的記錄，但是當我 ...

lucene中的“OR”查詢

[英]"OR" query in lucene

我正在嘗試設計一個電影數據庫的信息檢索系統。我想按標題搜索，所以當我搜索“Cobra Kai”時，我的分析器將這個字符串分解為“cobra kai”、“cobra”和“kai”以進行更好的配對。所以我的問題是我必須執行這樣的查詢：“cobra kai”或“cobra”或“kai”，但它對我不起作 ...

ElasticSearch 查詢不適用於僅 2 個字符

[英]ElasticSearch query is not working with only 2 characters

我有一個包含此映射定義的字段該字段的值類似於22-001 、 22-002等我正在對 ElasticSearch 進行以下查詢此查詢返回 0 個結果。將simple_query_string query更改為22001或22-001將返回相關結果。有人可以向我解釋為什么只有 2 個字符的原 ...