標簽[stringdist] - 堆棧內存溢出

[英]Using stringdist in R with big dataset (1.8 millions rows)?

我正在使用一個包含列調用作業的數據集 (df)，人們只需在其中輸入他們的作業 position。問題是因為數據是手動輸入的，所以它們包含很多拼寫錯誤。為了按作業分組進行一些計算，我試圖創建一個名為組的列，以將具有相似字符串的作業分組在一起。例如：工作工作組酒保酒保調酒師酒保巴坦德雷酒保工程 ...

將數據庫 x 中的一列與數據庫 y 中的另一列進行比較，並返回包含高度可能匹配的數據庫 z

[英]Compare one column in database x to another column in database y and return a database z containing high likely matches

我想獲取客戶名稱列表並將它們與內部數據庫進行比較，以找到很可能匹配並返回客戶代碼所以我會收到這樣的客戶列表：客戶名稱雞 C。水有限公司計算機 ldt 美食，美食我想將它與這樣的內部數據庫進行比較： Cx 名稱數據庫客戶編號科技公司 9123 電腦有限公司 8123 雞肉公司 7123 水有限 ...

如何在stringdist中使用grabl function為多個output向量創建循環

[英]how to create loop for multiple output vectors with grabl function in stringdist

我正在嘗試為 stringdist 中的grabl function 創建一個循環，該循環重復以下步驟：從向量中選擇一個字符串模式並作為 p_i 插入匹配表 x 中的字符串創建 output 向量 vec_i 重復所有 i = 1, ..., n 這樣，最后，我產生了 n 個 output 向量 ...

R - stringdist aFind() 方法，沒有 maxDist 參數

[英]R - stringdist aFind() method, no maxDist parameter

aFind 的文檔指定了一個可以使用的 maxDist 參數，但是沒有可以傳遞給 aFind 的 maxDist 參數？ https://cran.r-project.org/web/packages/stringdist/stringdist.pdf 使用此代碼：剛回來查找錯誤（ae_tar ...

使用具有不同列名的 stringdist_join

[英]Using stringdist_join with differing column names

我有如下示例數據：所以下面運行正常：但是不允許與具有不同名稱的列合並（請注意，連接現在a and c ）。我想告訴stringdist_left_join使用兩個不同的列名來連接，就像代碼的最后一行 it (e) ，但它似乎不接受它。有沒有解決這個問題的方法（除了復制列並給它另一個名字）？ ...

Stringdist 距離出乎意料地大

[英]Stringdist distance unexpectedly large

下面的數據有不匹配的驚人結果。我原以為距離是5 ，但即使是7我也找不到匹配項只有在10點我才得到一場比賽.. 有人可以向我解釋為什么這個距離大於9嗎？它與括號有關嗎？如果是這樣，我如何在不刪除括號的情況下規避這個問題？編輯即使沒有括號，我也無法獲得5以內的距離。 ...

匹配帶有縮寫的字符串；模糊匹配

[英]Matching strings with abbreviations; fuzzy matching

我在匹配字符串時遇到問題。大多數困難集中在縮寫上我有兩個字符向量。我正在嘗試將向量 A 中的單詞（拼寫錯誤）與向量 B 中的結束匹配進行匹配。我對此的第一個破解是使用stringdist package 模糊匹配命令。但是，我只能將其推到此為止。 amatch/fuzzy 匹配非常適合拼寫 ...

轉換為矩陣，但在 R 中保留一條對角線到 NULL

[英]Convert to matrix but keep one diagonal to NULL in R

我有一個巨大的數據集，看起來像這樣。為了節省一些 memory，我想計算成對距離，但將矩陣的上對角線保留為 NULL。library(tidyverse) library(stringdist) #> #> Attaching package: 'stringdist' #> ...

獲取最近的 n 個匹配字符串

[英]Get nearest n matching strings

嗨，我正在嘗試將一個字符串與不同 dataframe 中的另一個字符串進行匹配，並根據分數獲得最近的 n 個匹配項。 EX：從 string_2 (df_2) 列我需要匹配 string_1(df_1) 並根據每個 ID 組獲取最接近的 3 個匹配項。我的 output dataframe df ...

基於多種模式提取字符串

[英]Extract strings based on multiple patterns

我有成千上萬個看起來像這樣的 DNA 序列:)。我需要提取CTACG和CAGTC之間的每個序列。但是，這些序列中的許多情況都帶有錯誤（刪除、插入、替換）。有沒有辦法根據 Levenshtein 距離來解釋不匹配？ref <- c("CCTACGGTTATGTACGATTAAAGAAGAT ...

在 R 中查找字符串組之間的距離

[英]Find the distance between groups of string in R

我有一個非常大的數據集，看起來像這樣。我有兩種類型的數據框我的參考數據框架和我的實驗data.frame 我想匹配ref和expr data.frames 並找到它們之間的 levenstein 距離。 output 可能看起來像這樣...... 在我測量了他們的列文斯坦距離之后，我想將距離小 ...

R 大數據幀的模糊連接

[英]R fuzzy join with big dataframes

我想做一個基於模糊匹配的left_join(df1, df2) 。我的df1有 100k 行，而我的df2有 25k 行。基本上我想用 jaro winkler 方法計算兩個數據幀的join_colum之間的字符串相似度。所以這將是 100k * 25k 比較。我只想進行一場比賽，而不是多次 ...

忽略 stringdist::extract 中 maxDist 的大小寫

[英]Ignoring the case for maxDist in stringdist::extract

我在R使用stringdist包。對於幾個選項：它使用maxDist 。但是，此選項將A和a之間的距離計為一。就像A和b之間的距離。對於maxDist ，我想忽略字母大小寫。有誰知道怎么做？ ...

使用 stringdist 查找多個單詞的匹配項

[英]Finding matches for multiple words with stringdist

我有如下測試數據。我正在嘗試使用stringdist為單詞向量查找（接近）匹配項，因為實際數據庫很大：我試着跑：編輯：按照 zx8754 的評論，我嘗試了：和：我的印象是，前一行 ( amatch ) 會給我一些類似於索引向量的東西，其中會有匹配。但它只是給了我一個帶 ...

逐字確定多詞串的（異）相似性

[英]Determine (dis)similarity of multi-word strings on a word-by-word basis

我正在研究多字字符串中的字符串距離，就像在這個玩具數據中一樣：我想逐字確定每一行與下一行的（不同）相似性。我使用這個代碼：雖然結果似乎沒問題，但它存在三個問題：a) 有很多警告，b) 代碼看起來很復雜，c) distance是字符類型。所以我想知道是否有更好的方法來逐字確定字符串的（ ...

如何在 stringdist 連接中鎖定“by”列的第一個數字？

[英]How do I lock the first digits of the 'by' column in a stringdist join?

我正在嘗試使用 stringdist_join 合並兩個表。我已經將我的 'by' 變量構建為三個變量的串聯，這些變量是這樣命名的： UAI : 序列號 nom : 姓 prenom : name 下面的代碼運行良好，但是我希望 UAI 部分完美匹配，它始終是變量 UAInomprenom ...

短語匹配，無論其 position 以逗號分隔

[英]Phrase match irrespective of their position seperated by comma

我有 2 個數據框，需要比較 df_1 和 df_2，並從 col_2 的 df_2 中獲取相似的字符串，並將它們匹配的短語數存儲在 df_out 數據框中 df_out dataframe的解釋 ...

順序不匹配和相似性

[英]Order mismatch and similarity

我有兩個值，它們的順序不匹配，理想情況下值相同。當我計算字符串相似度時，它們之間的分數與理想分數相去甚遠如何識別 col_1 和 col_2 是相似的，即使它們的順序是錯誤排列的。即是否有任何方法可以識別這兩個值在理想情況下是相同的 ...

最近的字符串匹配及其 rowId

[英]Nearest string match and their rowId

我正在嘗試將 df_1 dataframe 中的 col_1 與 df_2 dataframe 中的 col_2 進行比較，以獲得得分最低的前 3 名最近的匹配項（最低分代表最近的匹配項）及其各自的 rowid。也可以靈活地更改前 N 個最接近的匹配項。即在我的情況下，我考慮了前 3 名，並像前 ...

使用 stringdist 進行字符串匹配

[英]String matching using stringdist

我有兩個數據框，其部門名稱與這些類似：變量“depto”假設是相同的，但有一些差異。我嘗試使用 stringdist 來匹配兩個數據幀。結果如下：我想知道一種方法來改善這一點。第一個問題是 Cauca 和 Arauca 的部門總是匹配為相同。第二個問題是d1中的一些部門包括自 ...