cost 201 ms
如何找到 100 萬篇文章標題之間的 Levenshtein 距離,其中每個標題都與其他標題進行比較?

[英]How to find Levenshtein distance between 1 million article titles, where every title is compared to every other title?

我有一個很大的 pandas DataFrame,由 100 萬行組成,我想獲取 DataFrame 的一列中每個實體之間的 Levenshtein 距離。我嘗試將該列與其自身合並以生成笛卡爾積,然后將 Levenshtein 距離 function 應用於這個新列,但這在計算上太昂貴了,因為它需 ...

我將如何從 Levenshtein 相似矩陣制作聚類?

[英]How would I make clusters from a Levenshtein similarity matrix?

我有一個單詞的相似度矩陣,想應用一種可以將單詞聚類的算法。 這是我到目前為止的例子: 顯然這是一個非常簡單的虛擬示例,但我希望 output 是 2 個集群,一個是“單身漢”、“單身女郎”、“單身漢特別”,另一個是“運動中心”、“運動中心”晚上 8 點”,“周日體育中心”。 誰能幫我這個? ...

兩個不同數據幀的兩列之間的 Levenshtein 距離

[英]Levenshtein distance between two columns of two different dataframes

假設我有兩個數據框數據框 1: ID1 姓名1 1個胡安娜 2個盧卡斯 3個佩德羅 4個馬蒂亞斯數據框 2: ID2 名字2 1個娟 2個胡安娜 3個胡安妮塔 4個馬蒂亞斯 5個馬蒂亞 6個馬蒂亞斯 7 馬蒂亞斯每個都沒有相同的行數。 我想創建第三個數據框,將第一個數據框的每個值與第二個數據 ...

在多列上模糊匹配 2 個數據幀,其中包括一列具有浮點值

[英]Fuzzy Matching 2 DataFrames on multiple columns which includes one column with Float Values

我有 2 個數據幀,即“Master_data_df”和“My_records_df”。 我需要通過與“My_records_df”進行比較來找出“Master_data_df”中遺漏的記錄。 這里的“Cleint_Name”列是一個字符串,在 2 個數據框中沒有完全匹配。 類似地,“Transac ...

使用自定義 function 作為 Ecto order_by 的參數

[英]Use a custom function as argument to Ecto order_by

我有一個 function distance/2計算兩個字符串之間的Levenshtein 距離。 我想將其用作order_by/3 (文檔)的參數,以便結果按 Levenshtein 到術語的距離排序,因為我正在嘗試實現基本的自動完成功能。 目前,我有類似的東西: 但是這個錯誤,指出: 'dist ...

當“單詞”可以包含多個單詞時的拼寫糾正

[英]Spell correction when a "word" can consist of multiple words

我有一套 和一個字符串 如何返回列表 錯別字與原始城市名稱的距離最多為 2 個編輯距離。 如果城市有 1 個單詞的長度,那么這將是一個簡單的問題。 當城市有多個單詞時,我該怎么做? 請注意,該算法專門選擇了new york city而不是new york 。 ...

加快大列表上的模糊匹配

[英]Speeding up fuzzy match on large list

我正在開展一個項目,該項目在名稱列表上使用模糊邏輯,可以 go 大約 100,000 條唯一記錄。 在我們最近進行的篩選中,我們使用的功能平均可以在 2.20 秒內完成一個名稱。 這意味着在 10,000 個名稱的列表中,此過程可能需要6 個小時,這確實太長了。 有沒有一種方法可以加快我們的進程? ...

感知散列准確度/精度

[英]Perceptual hashing accuracy/precision

我想在一卡車照片中找到相同和非常相似的圖像。 為此,我想比較他們感知散列的 Levenstein(或 Hamming,尚未確定)距離。 要計算這些,我想使用imgash (也不是最終決定)。 對於 output,imghash 允許 select output 格式和位數。 我假設改變位數會改變准確 ...

用不同大小的另一列中的相似值替換列中的值 - Python

[英]Replace values ​in a column with similar values ​in another column with different size - Python

我有一個 dataframe 在一列(大約 6,000 行)中有不同的值,我需要用另一個 dataframe 中的類似(但不同)值替換它,它的行數更少。 店鋪要替換的值 A 店 05/15/21 A店 B 店 04/01/21 B店商店字母 B 11/12/21 店鋪 C 商店 C 10/24 ...

從語料庫列表中查找 substring 的最佳匹配

[英]Find best matches of substring from list in corpus

我有一個看起來像這樣的語料庫第 5 號函件協議 中國南方航空股份有限公司 中國廣州白雲機場 510405 主題:延誤 中國南方航空股份有限公司(“買方”)和空中客車公司(“賣方”)已進入於同一日期簽訂的購買協議(“協議”)中還有一個看起來像這樣的公司名稱列表 此列表的元素在語料庫中並不總是完全匹配, ...

使用索引改進 postgresql 中文本列的列文斯坦距離比較

[英]Improve the levenstein distance comparison on text columns in postgresql using index

我有一個表,其中每一行都有兩列代表交叉點的名稱。 還有第二個表,其中每一行表示由 object id 相關的交叉口的一條街道。 我想要做的是,在第二個表中搜索我的第一個表的每一行,並找到兩個名稱都匹配的交集的 objectid。 function進行匹配,使用列文斯坦距離並將第一個表中的兩個名稱中 ...

Java 中的 Myers Levenshtein 來自 C(Java 無符號位操作)

[英]Myers Levenshtein in Java from C (Java unsigned bit manipulation)

我正在嘗試使用 Myers 位並行算法在 Java 中執行快速近似字符串匹配。 我在 C 中找到了一個很好的實現,但是在 Java 中實現它時遇到了問題。 我的版本似乎永遠不會更新 score 變量。 下面是 C 的實現:(感謝Fujimoto Seiji )int8_t myers1999(ch ...

將來自 rapidfuzz.distance 的 Levenshtein 距離應用於具有兩列的數據框

[英]Apply Levenshtein distance from rapidfuzz.distance to dataframe with two columns

我有一個 csv 文件,如下所示: 現在我想計算每對名字的 Levenshtein 距離。 因此,將“John Doe”與“John Doe”進行比較,並將其放入一個新列中。 然后對“Mike Johnson”和“Mike Jonson”進行下一個比較。 所以輸出如下: 我試過了(請參閱如何 ...

Agrepl - 10% 的閾值是什么意思?

[英]Agrepl - what does a 10% threshold mean?

我使用 Agrepl 對兩組地址進行模糊匹配。 文檔說默認是: 如果沒有給出cost,all默認為10%,其他transformation number bounds默認為all。 組件名稱可以縮寫。 然而, 閱讀這個帶有這個例子的問答,這似乎並不匹配。 這是那個例子: 根據描述,我想計算 10 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM