標簽[fuzzywuzzy] - 堆棧內存溢出

如何在字符串列表（> 2 個字符串）中找到最長的公共 substring？嘗試 FuzzyWuzzy 和序列匹配器

[英]How to find the longest common substring in a list of strings (>2 strings)? Trying FuzzyWuzzy and Sequence matcher

所以我試圖為使用 dois 的期刊找到一個通用標識符。例如，我有一份期刊的 dois 列表：['10.1001/jamacardio.2016.5501', '10.1001/jamacardio.2017.3145', '10.1001/jamacardio.2018.3029', '10.10 ...

為大型數據集調整嵌套的 apply() 函數

[英]Adjusting nested apply() functions for large datasets

我有兩個要比較的數據框，但遇到了體積問題。我正在通過 450 萬行庫存列表傳遞一行新項目描述並計算相似度。我只需要前 x 個建議，並且意識到我當前的方法很快就會被大量數據淹沒並導致內核崩潰。我以前沒有處理過這個數據大小，所以我不確定如何調整我的代碼。任何意見是極大的贊賞。當前的方法是先將數 ...

在多列上模糊匹配 2 個數據幀，其中包括一列具有浮點值

[英]Fuzzy Matching 2 DataFrames on multiple columns which includes one column with Float Values

我有 2 個數據幀，即“Master_data_df”和“My_records_df”。我需要通過與“My_records_df”進行比較來找出“Master_data_df”中遺漏的記錄。這里的“Cleint_Name”列是一個字符串，在 2 個數據框中沒有完全匹配。類似地，“Transac ...

如何使用數據庫中的完美地址清理我凌亂的地址？

[英]How to clean my messy address using the perfect address in database?

我在 oracle sql 中有一個數據庫表，其中包含所有正確的地址（大約 2,00,000 條記錄），我們得到了一個地址混亂的新文件。有什么方法可以將混亂的地址列（200、000 條記錄）與數據庫表中的地址匹配嗎？兩個表之間沒有唯一列。請給我一些建議我嘗試在兩個表之間的部分地址匹配上使用 ...

for 循環遍歷列表模糊匹配打印出匹配分數

[英]for Loop over a list fuzzy match printing out match score

我有一個關於模糊匹配的問題。這是我要編寫的函數：如何在列表上使用for循環（或其他解決方案）並將匹配分數附加到數據集？預期輸出：試圖在列表上循環 ...

如何提取括號內包含字符串、逗號和整數的字符串？

[英]How to extract a string within a parentheses that contains the string, a comma, and an integer?

我正在嘗試拉出一個位於括號內的字符串名稱，該名稱包含后跟逗號和整數的字符串。我當前的數據幀輸出是這樣的：但我希望數據框輸出看起來像這樣：我目前的 df 列為：我試過使用 str.extract 但我對如何只專注於抓住字母模式感到困惑。 ...

使用 rapidfuzz 並行處理 function

[英]Parallel processing with rapidfuzz function

我有一個包含 100 000 條記錄的數據集。我的問題是多對多類型，我需要計算每行 100k 行中名稱列的模糊分數。我正在使用 for 循環迭代每一行並使用 pandas apply 方法計算模糊分數。真正的問題是代碼需要大約 15 個小時的時間，所以我嘗試使用並行處理和多處理來減少這個時間 ...

如何在進行文本相似性評分時對熊貓數據幀進行矢量化和加速雙循環

[英]How to vectorize and speed-up double for-loop for pandas dataframe when doing text similarity scoring

我有以下數據框：如果這些名稱屬於一個集群編號，我想在name列中識別相似的名稱，並為它們創建唯一的 ID。例如， South Beach和Beach屬於1號聚類，它們的相似度得分非常高。所以我們將它與唯一的 id 相關聯，比如1 。下一個集群是2號， name列中的三個實體屬於該集群： Do ...

Fuzzywuzzy 比較兩個長度不等的字符串列表並保存多個相似性度量

[英]Fuzzywuzzy to compare two lists of strings of unequal length and save multiple similarity metrics

我正在嘗試比較兩個字符串列表並生成兩個列表之間的相似性指標。這些列表的長度不等，一個大約有 50,000 個，另一個大約有 3,000 個。但是這里有兩個與我的數據相似的 MWE 數據框：forbes = pd.DataFrame( { "company_name": [ ...

在兩個 Pandas 數據幀中應用兩列的模糊字符串匹配，同時保留相似性得分和 output a Pandas DataFrame

[英]Apply fuzzy string matching of two columns in two Pandas dataframes while preserving a similarity score and output a Pandas DataFrame

我有兩個要合並的數據框，基於公司名稱的主鍵和外鍵。一個數據集有大約 50,000 個唯一的公司名稱，另一個數據集有大約 5,000 個。每個列表中可以有重復的公司名稱。為此，我嘗試遵循Figure out if a business name is very similar to anoth ...

如何在具有多個列表的 dataframe 列中應用模糊匹配並將結果保存在新列中

[英]How to apply fuzzy matching across a dataframe column with multiple lists and save results in a new column

我對以下參考資料中提供的鏈接有類似的問題，但有細微差別但想要相同的結果：對 dataframe 列應用模糊匹配並將結果保存在新列中模糊匹配一列中的字符串並使用 fuzzywuzzy 創建新的 dataframe 我有 dataframe 並希望獲得 dataframe 中兩列之間的部分比率和標 ...

在列表中查找與其他字符串具有最高部分匹配的字符串

[英]Find a string having highest partial match with other strings in a list

我有一個帶字符串的列表 A： ['assembly eye tow top', 'tow eye bolts', 'tow eye bolts need me'] 我試圖找到一個字符串strA ，它與列表 A 中的所有字符串具有最高的部分匹配分數。換句話說，創建一個包含常見標記和大多數字符串中存在 ...

為什么我在進行合並時會收到來自 output 的關鍵錯誤

[英]why do i get a key error from output when i do a merge

嗨，請幫助我，我正在嘗試使用 pandas 和 fuzzywuzzy 在兩個數據集上使用每個數據集的兩列進行模糊合並，但我在打印 function 之前的行中得到一個回溯，上面寫着 KeyError : ('name', 'lasntname') ，我不知道我引用的是錯誤的還是什么，我試過雙括號和括 ...

模糊搜索 pyspark dataframe

[英]Fuzzy search in pyspark dataframe

我有一個大文件 csv（> 9600 萬行）和七列。我想對其中一列進行模糊搜索，並檢索與輸入字符串相似度最高的記錄。該文件由 spark 管理，我通過 pyspark 將其加載到一些 dataframe 中。現在我想使用 fuzzywuzzy 之類的東西來提取最匹配的行。但是 fuzz ...

通過對兩者使用相同的字符串來替換列中的相似字符串

[英]Replacing similar strings in the column by using the same for both

我在我的一個小項目中遇到了以下問題。我有一個大型數據集，其中一些字符串值意外地沒有正確寫入。我的目標是編寫一個 function 以確保在循環中查找所有看起來非常相似 (.75) 的名稱，並獲得相同的名稱。在下面的示例中，我描述了數據的一個子集，其中“Bob Fisherman”、“Bob F ...

優化比較兩個數據幀與模糊模糊

[英]Optimaze comparing two dataframes with fuzzywuzzy

我有兩個 dataframe（xlsx 文件）。 df_source包含有關已加載書籍的信息（66,000 行）。 df_sort包含有關需要排序以加載的書籍的信息（36,000 行）。我需要將df_source中的每一行與df_sort中的每一行進行比較。字符串可能略有不同，例如：在df ...

提高模糊匹配性能

[英]improving fuzzy matching performance

我有兩個數據框，第一個有 200k 記錄，第二個有 9k。我需要對兩列中的字符串匹配應用模糊匹配。我刪除了兩個數據框中的重復值，但仍然可能有類似的字符串。因此，我編寫了以下代碼。我認為我可以通過第三列中的 best-two-matches 手動 go 看看它是否是合理的匹配。問題是代碼已經 ...

模糊匹配與 Python 字典

[英]Fuzzywuzzy Match with Python Dictionary

我正在嘗試比較兩個字典，查找匹配項，然后將一個字典中的鍵（假設匹配率> = 55）推送到列表中。例如，我使用fuzzywuzzy作為得分比率，但出現此錯誤： AttributeError: 'str' object has no attribute 'values' 我嘗試了以下方法（在其 ...

Pandas - 根據比較 row[i] 和 row[i+1] 的模糊模糊結果更改單列的下一行

[英]Pandas - change next row on single column based on the fuzzy wuzzy result of comparing row[i] with row[i+1]

我在 pandas 中有下一個 DataFrame(df)：（這只是一個例子，真正的 DF 超過 2000 行和超過 20 個名稱） ID 姓名 1 安德烈亞·岡茲萊茲 2 安德里亞·格茲 3 安德里亞·格萊茲 4 線弧 5 線a 6 線條 aerc 我想將第 1 行的名稱與第 2 行的名稱進行 ...

在來自fuzzywuzzy的文本數據相關矩陣中找到“中心”

[英]Find "hubs" in a text-data correlation matrix from fuzzywuzzy

如果我有一個字符串列表，我如何 select 一些“代表性”字符串，以便在它們之間，它們可以與列表中的所有字符串進行模糊匹配。第一步，對所有文本進行模糊匹配，看起來像這樣我的想法是 select 兩個或三個字符串可以作為整個集合的代表，這樣如果我模糊匹配，我可以將它們全部標記為 1，閾值 &g ...