[英]spaCy fuzzy matching error: "extra fields not permitted"
我正在嘗試運行 spaCy 的模糊匹配方法。 我為 spaCy package 和 model en_core_web_sm 使用 3.5.0 版本。 我運行了以下命令: 運行上面的代碼時,出現以下錯誤: MatchPatternError:匹配器規則“my_name”的無效令牌模式模式 0:[ ...
[英]spaCy fuzzy matching error: "extra fields not permitted"
我正在嘗試運行 spaCy 的模糊匹配方法。 我為 spaCy package 和 model en_core_web_sm 使用 3.5.0 版本。 我運行了以下命令: 運行上面的代碼時,出現以下錯誤: MatchPatternError:匹配器規則“my_name”的無效令牌模式模式 0:[ ...
[英]How can I get the highlights of my result set in Hibernate search 6?
我在我的 java 應用程序中使用 Hibernate search 6 Lucne 后端。 我正在執行各種搜索操作,包括模糊搜索。 我得到的搜索結果沒有任何問題。 現在我想展示在我的結果列表中選擇每個結果的原因是什么。 假設搜索關鍵字是“test”,在“name”、“description”、“ ...
[英]How to apply fuzziness in a multi_match query to only specified fields in elasticsearch?
如果我有如下搜索查詢: 我如何才能僅在“field1”或“field2”或“field1”和“field3”等選擇性字段而不是所有字段上應用模糊性,這是標准行為? ...
[英]In Elasticsearch, how to know which element in the array is chosen by the fuzzysearch when querying against a list
我有一個棘手的案例,想請教這里的專家。 我們將用戶信息存儲在 Elasticsearch 中,一個用戶可能有不同的別名,都存儲在如下所示的“名稱”數組中 當我們搜索用戶名時,比如說“ jone great ”,我們構建一個如下所示的模糊搜索 此查詢將返回上面的用戶,其別名是“John The Gre ...
[英]How to search phrase with soundex using 1 word?
如果用戶在輸入中只輸入了一個單詞時出錯,我需要用這個詞“table”或“tablr”或“tables”找到這個短語“small side table”。 我嘗試了 MATCH AGAINST 和 LIKE '%%',但是模擬錯誤寫入,它沒有找到任何東西,要更正它我需要整個句子 soundex('s ...
[英]python regex BESTMATCH behaviour
我看到 python 正則表達式庫的模糊匹配行為,我不太明白。 我正在搜索的字符串是: 我正在搜索的模式是(允許 5 個不匹配): 正如預期的那樣,使用上面的命令找到了我的三個模式: 但是,如果我要求最佳匹配,則不再找到第一個模式(從 CAAGCTT 開始): 我該如何解釋這一點,因為我的模式沒有重 ...
[英]How to vectorize and speed-up double for-loop for pandas dataframe when doing text similarity scoring
我有以下數據框: 如果這些名稱屬於一個集群編號,我想在name列中識別相似的名稱,並為它們創建唯一的 ID。 例如, South Beach和Beach屬於1號聚類,它們的相似度得分非常高。 所以我們將它與唯一的 id 相關聯,比如1 。 下一個集群是2號, name列中的三個實體屬於該集群: Do ...
[英]Searching for exact phrase with synonyms
我正在嘗試構建一個查詢,我在其中使用精確的短語匹配和同義詞,但我無法弄清楚。 此外,在使用通配符方法時,我不知道如何使用模糊性。 通配符甚至有可能嗎? 如果術語“call of duty”、“cod”或“call of dutz”獲得相同的結果,那就太好了。 我創建了這個索引: 我用這些項目填充它: ...
[英]How to apply fuzzy matching across a dataframe column with multiple lists and save results in a new column
我對以下參考資料中提供的鏈接有類似的問題,但有細微差別但想要相同的結果: 對 dataframe 列應用模糊匹配並將結果保存在新列中 模糊匹配一列中的字符串並使用 fuzzywuzzy 創建新的 dataframe 我有 dataframe 並希望獲得 dataframe 中兩列之間的部分比率和標 ...
[英]Ranking the multiple categories in the search result
我在顯示搜索結果時對不同類別進行評分時遇到問題,希望您能幫助我。 假設我搜索了“鞋子”,這個詞存在於不同的貓中:男鞋中的鞋女鞋中的鞋童鞋中的鞋運動鞋中的鞋我將在搜索結果中顯示最多3 個類別。 在 Elasticsearch 我如何評價他們? 或哪些因素用於評分? ...
[英]Speed up fuzzy regex search Python
我正在尋找有關如何加速下面描述的過程的建議,其中涉及模糊正則表達式搜索。 我想做什么我模糊地搜索keywords ,存儲在字典d中(在下面的示例中,值總是兩個列表,需要跟蹤找到的關鍵字,如果有的話),在一組strings中,存儲在文件testFile (每行一個字符串,每行約 150 個字符)- ...
[英]Solr fuzzy search problem for some tokens
環境- java 版本“11.0.12” 2021-07-20 LTS,solr-8.9.0 我的 Solr 索引有以下字段聲明: 字段類型: 我知道“Lucene 支持基於 Levenshtein 距離或編輯距離算法的模糊搜索。要進行模糊搜索,使用波浪號“~”,使用單個單詞術語末尾的符號。 ~ ...
[英]how to control score of Elasticsearch Fuzzines
我有一個公司名稱數據集。 每條記錄都包含公司的名稱,以及一些可以代表該名稱的其他值。 例如: 姓名:山姆俱樂部 other_names:山姆西現在的問題是,如果我要尋找一家名為“blala west”的公司,該公司在數據庫中不存在,我將以高分取回該記錄。 我還必須搜索“other_names”字段, ...
[英]How do I approximate search multiple terms in a string in JS?
賞金將在 6 天后到期。 此問題的答案有資格獲得+150聲望賞金。 Apoqlite正在從有信譽的來源尋找答案: 一種無論復雜度如何都能准確進行多模式近似字符串匹配的解決方案。 我有一個字符串S和一個字符串列表allItems , allItems包含可能具有常見“子詞”但一個元素永遠不是另一個 ...
[英]How to optimize fuzzy string matching pairs of phrases (intersection names) in PostgreSQL
我們有一個交叉口名稱表,例如'Main St / Broadway Ave' ,我們正在嘗試將可能混亂的用戶輸入(形式為(street1, street2) )與這些名稱相匹配。 不能保證輸入與街道名稱的順序相同。 我們將交叉點名稱拆分為一個長格式表,以優化進行兩個模糊距離比較,例如 並在 stre ...
[英]Solr - Matching all provided user tokens
賞金將在 6 天后到期。 此問題的答案有資格獲得+50聲望賞金。 user595014正在從有信譽的來源尋找答案。 環境 ==> solr - solr-8.9.0,java 版本“11.0.12”2021-07-20 LTS 以下.csv 文件在 solr 中被索引 我想模糊搜索一本名為 ...
[英]Matching Numbers that are Close in Value in Alteryx
我在Alteryx有兩個具有不同值的不同數據集。 一個數據集用作另一個數據集的查找表。 例如: 我想執行模糊匹配來加入兩個數據集。 我不確定如何在模糊匹配之前最好地合並數據集,因為列是如此不同(如上面的示例)。 我看了一些教程,說我需要先加入數據。 如果沒有任何列真正匹配,我如何加入Alteryx中 ...
[英]Access Query link two tables with similar values
我正在嘗試使用兩個要鏈接/創建關系的表來創建一個選擇查詢。 通常,如果兩個表包含相同的值,您只需“拖動”並在這兩列之間創建鏈接。 然而,在這種情況下,第二個表在字段的末尾添加了一個“/CUSTOMER”。 例子; Table1.OrderNumber 包含始終包含 10 個字符的訂單號 T ...
[英]GIN Index implementation
通常,Trigram Indexes 應該將值的 trigram 存儲在索引值中。 我已經了解 GIN Index 的結構以及它們如何存儲值。 我堅持的一件事是,他們是否會存儲給定文本的三元組或文本本身。 我讀過一些文章,它們都顯示 gin index 用 tsvector 存儲單詞 現在如果是 ...
[英]not working fuzzy logic when use the fuzzines.auto elasticsearch
我希望它在搜索框中輸入一個詞時返回類似的結果,即使這個詞是錯誤的。 例如,當我輸入“gpple”時,它應該會出現“google”。 我為此使用 Fuzzines.Auto,但它不起作用。 我附上我寫的代碼,如果你能提供幫助,我將不勝感激。 謝謝 ...