標簽[levenshtein-distance] - 堆棧內存溢出

如何找到 100 萬篇文章標題之間的 Levenshtein 距離，其中每個標題都與其他標題進行比較？

[英]How to find Levenshtein distance between 1 million article titles, where every title is compared to every other title?

我有一個很大的 pandas DataFrame，由 100 萬行組成，我想獲取 DataFrame 的一列中每個實體之間的 Levenshtein 距離。我嘗試將該列與其自身合並以生成笛卡爾積，然后將 Levenshtein 距離 function 應用於這個新列，但這在計算上太昂貴了，因為它需 ...

我將如何從 Levenshtein 相似矩陣制作聚類？

[英]How would I make clusters from a Levenshtein similarity matrix?

我有一個單詞的相似度矩陣，想應用一種可以將單詞聚類的算法。這是我到目前為止的例子：顯然這是一個非常簡單的虛擬示例，但我希望 output 是 2 個集群，一個是“單身漢”、“單身女郎”、“單身漢特別”，另一個是“運動中心”、“運動中心”晚上 8 點”，“周日體育中心”。誰能幫我這個？ ...

兩個不同數據幀的兩列之間的 Levenshtein 距離

[英]Levenshtein distance between two columns of two different dataframes

假設我有兩個數據框數據框 1： ID1 姓名1 1個胡安娜 2個盧卡斯 3個佩德羅 4個馬蒂亞斯數據框 2： ID2 名字2 1個娟 2個胡安娜 3個胡安妮塔 4個馬蒂亞斯 5個馬蒂亞 6個馬蒂亞斯 7 馬蒂亞斯每個都沒有相同的行數。我想創建第三個數據框，將第一個數據框的每個值與第二個數據 ...

在多列上模糊匹配 2 個數據幀，其中包括一列具有浮點值

[英]Fuzzy Matching 2 DataFrames on multiple columns which includes one column with Float Values

我有 2 個數據幀，即“Master_data_df”和“My_records_df”。我需要通過與“My_records_df”進行比較來找出“Master_data_df”中遺漏的記錄。這里的“Cleint_Name”列是一個字符串，在 2 個數據框中沒有完全匹配。類似地，“Transac ...

使用自定義 function 作為 Ecto order_by 的參數

[英]Use a custom function as argument to Ecto order_by

我有一個 function distance/2計算兩個字符串之間的Levenshtein 距離。我想將其用作order_by/3 （文檔）的參數，以便結果按 Levenshtein 到術語的距離排序，因為我正在嘗試實現基本的自動完成功能。目前，我有類似的東西：但是這個錯誤，指出： 'dist ...

無法在 Windows Python 3.9 上安裝 pandas-dedupe

[英]Can't install pandas-dedupe on Windows Python 3.9

運行pip install pandas-dedupe ，出現以下錯誤：我先嘗試手動安裝 python-Levenshtein，但在添加時遇到了同樣的問題 . 我能做什么？ ...

當“單詞”可以包含多個單詞時的拼寫糾正

[英]Spell correction when a "word" can consist of multiple words

我有一套和一個字符串如何返回列表錯別字與原始城市名稱的距離最多為 2 個編輯距離。如果城市有 1 個單詞的長度，那么這將是一個簡單的問題。當城市有多個單詞時，我該怎么做？請注意，該算法專門選擇了new york city而不是new york 。 ...

加快大列表上的模糊匹配

[英]Speeding up fuzzy match on large list

我正在開展一個項目，該項目在名稱列表上使用模糊邏輯，可以 go 大約 100,000 條唯一記錄。在我們最近進行的篩選中，我們使用的功能平均可以在 2.20 秒內完成一個名稱。這意味着在 10,000 個名稱的列表中，此過程可能需要6 個小時，這確實太長了。有沒有一種方法可以加快我們的進程？ ...

感知散列准確度/精度

[英]Perceptual hashing accuracy/precision

我想在一卡車照片中找到相同和非常相似的圖像。為此，我想比較他們感知散列的 Levenstein（或 Hamming，尚未確定）距離。要計算這些，我想使用imgash （也不是最終決定）。對於 output，imghash 允許 select output 格式和位數。我假設改變位數會改變准確 ...

用不同大小的另一列中的相似值替換列中的值 - Python

[英]Replace values in a column with similar values in another column with different size - Python

我有一個 dataframe 在一列（大約 6,000 行）中有不同的值，我需要用另一個 dataframe 中的類似（但不同）值替換它，它的行數更少。店鋪要替換的值 A 店 05/15/21 A店 B 店 04/01/21 B店商店字母 B 11/12/21 店鋪 C 商店 C 10/24 ...

從語料庫列表中查找 substring 的最佳匹配

[英]Find best matches of substring from list in corpus

我有一個看起來像這樣的語料庫第 5 號函件協議中國南方航空股份有限公司中國廣州白雲機場 510405 主題：延誤中國南方航空股份有限公司（“買方”）和空中客車公司（“賣方”）已進入於同一日期簽訂的購買協議（“協議”）中還有一個看起來像這樣的公司名稱列表此列表的元素在語料庫中並不總是完全匹配， ...

如何 pip 在 Ubuntu 以及 Windows 10 中安裝 python-Levenshtein

[英]How to pip install python-Levenshtein in Ubuntu as well as Windows 10

我想為項目安裝paddleocr ，在 Ubuntu 20.04 中安裝期間收到以下錯誤在堆棧溢出上遵循各種答案，但未能解決錯誤 ...

使用索引改進 postgresql 中文本列的列文斯坦距離比較

[英]Improve the levenstein distance comparison on text columns in postgresql using index

我有一個表，其中每一行都有兩列代表交叉點的名稱。還有第二個表，其中每一行表示由 object id 相關的交叉口的一條街道。我想要做的是，在第二個表中搜索我的第一個表的每一行，並找到兩個名稱都匹配的交集的 objectid。 function進行匹配，使用列文斯坦距離並將第一個表中的兩個名稱中 ...

Java 中的 Myers Levenshtein 來自 C（Java 無符號位操作）

[英]Myers Levenshtein in Java from C (Java unsigned bit manipulation)

我正在嘗試使用 Myers 位並行算法在 Java 中執行快速近似字符串匹配。我在 C 中找到了一個很好的實現，但是在 Java 中實現它時遇到了問題。我的版本似乎永遠不會更新 score 變量。下面是 C 的實現：（感謝Fujimoto Seiji ）int8_t myers1999(ch ...

如何將 Levenshtein 方法的結果作為列添加到現有數據框中？

[英]How to add results of Levenshtein method as a column to an existing dataframe?

我想將 Levenshtein 方法計算的結果添加到現有數據框中。 Levenshtein 距離的計算如下：一個 b a_b 小牛火箭隊 5 馬刺隊 ...

將來自 rapidfuzz.distance 的 Levenshtein 距離應用於具有兩列的數據框

[英]Apply Levenshtein distance from rapidfuzz.distance to dataframe with two columns

我有一個 csv 文件，如下所示：現在我想計算每對名字的 Levenshtein 距離。因此，將“John Doe”與“John Doe”進行比較，並將其放入一個新列中。然后對“Mike Johnson”和“Mike Jonson”進行下一個比較。所以輸出如下：我試過了（請參閱如何 ...

比較兩個名稱的相似性並使用神經網絡識別重復項

[英]Compare similarity of two names and identify duplicates with neural network

這個賞金已經結束。此問題的答案有資格獲得+50聲望賞金。賞金寬限期在19 小時后結束。 ...

具有列表正確名稱的模糊匹配列

[英]Fuzzy matching column with right names of a list

我有錯別字的數據框列。 ID 銀行 1 美國銀行 2 美國銀行 3 摩根大通 4 摩根大通 ...

如何使用 Snowflake SQL 在單個列中找到字符串的變化？

[英]How can I find the variation in strings in a single column using Snowflake SQL?

假設我有一張這樣的桌子：人1 人2 戴夫弗雷德戴夫戴夫戴夫麥克風弗雷德戴夫 ...

Agrepl - 10% 的閾值是什么意思？

[英]Agrepl - what does a 10% threshold mean?

我使用 Agrepl 對兩組地址進行模糊匹配。文檔說默認是：如果沒有給出cost，all默認為10%，其他transformation number bounds默認為all。組件名稱可以縮寫。然而，閱讀這個帶有這個例子的問答，這似乎並不匹配。這是那個例子：根據描述，我想計算 10 ...