cost 139 ms
在 R 中使用帶有大數據集(180 萬行)的 stringdist?

[英]Using stringdist in R with big dataset (1.8 millions rows)?

我正在使用一個包含列調用作業的數據集 (df),人們只需在其中輸入他們的作業 position。 問題是因為數據是手動輸入的,所以它們包含很多拼寫錯誤。 為了按作業分組進行一些計算,我試圖創建一個名為組的列,以將具有相似字符串的作業分組在一起。 例如: 工作工作組酒保酒保調酒師酒保巴坦德雷酒保工程 ...

將數據庫 x 中的一列與數據庫 y 中的另一列進行比較,並返回包含高度可能匹配的數據庫 z

[英]Compare one column in database x to another column in database y and return a database z containing high likely matches

我想獲取客戶名稱列表並將它們與內部數據庫進行比較,以找到很可能匹配並返回客戶代碼所以我會收到這樣的客戶列表: 客戶名稱雞 C。 水有限公司計算機 ldt 美食,美食我想將它與這樣的內部數據庫進行比較: Cx 名稱數據庫客戶編號科技公司 9123 電腦有限公司 8123 雞肉公司 7123 水有限 ...

如何在stringdist中使用grabl function為多個output向量創建循環

[英]how to create loop for multiple output vectors with grabl function in stringdist

我正在嘗試為 stringdist 中的grabl function 創建一個循環,該循環重復以下步驟: 從向量中選擇一個字符串模式並作為 p_i 插入匹配表 x 中的字符串創建 output 向量 vec_i 重復所有 i = 1, ..., n 這樣,最后,我產生了 n 個 output 向量 ...

R - stringdist aFind() 方法,沒有 maxDist 參數

[英]R - stringdist aFind() method, no maxDist parameter

aFind 的文檔指定了一個可以使用的 maxDist 參數,但是沒有可以傳遞給 aFind 的 maxDist 參數? https://cran.r-project.org/web/packages/stringdist/stringdist.pdf 使用此代碼: 剛回來查找錯誤(ae_tar ...

2022-07-30 15:39:28   1   17    r / stringdist  
使用具有不同列名的 stringdist_join

[英]Using stringdist_join with differing column names

我有如下示例數據: 所以下面運行正常: 但是不允許與具有不同名稱的列合並(請注意,連接現在a and c )。 我想告訴stringdist_left_join使用兩個不同的列名來連接,就像代碼的最后一行 it (e) ,但它似乎不接受它。 有沒有解決這個問題的方法(除了復制列並給它另一個名字)? ...

2022-04-16 09:00:41   1   165    r / stringdist  
Stringdist 距離出乎意料地大

[英]Stringdist distance unexpectedly large

下面的數據有不匹配的驚人結果。 我原以為距離是5 ,但即使是7我也找不到匹配項 只有在10點我才得到一場比賽.. 有人可以向我解釋為什么這個距離大於9嗎? 它與括號有關嗎? 如果是這樣,我如何在不刪除括號的情況下規避這個問題? 編輯 即使沒有括號,我也無法獲得5以內的距離。 ...

匹配帶有縮寫的字符串; 模糊匹配

[英]Matching strings with abbreviations; fuzzy matching

我在匹配字符串時遇到問題。 大多數困難集中在縮寫上我有兩個字符向量。 我正在嘗試將向量 A 中的單詞(拼寫錯誤)與向量 B 中的結束匹配進行匹配。 我對此的第一個破解是使用stringdist package 模糊匹配命令。 但是,我只能將其推到此為止。 amatch/fuzzy 匹配非常適合拼寫 ...

獲取最近的 n 個匹配字符串

[英]Get nearest n matching strings

嗨,我正在嘗試將一個字符串與不同 dataframe 中的另一個字符串進行匹配,並根據分數獲得最近的 n 個匹配項。 EX:從 string_2 (df_2) 列我需要匹配 string_1(df_1) 並根據每個 ID 組獲取最接近的 3 個匹配項。 我的 output dataframe df ...

基於多種模式提取字符串

[英]Extract strings based on multiple patterns

我有成千上萬個看起來像這樣的 DNA 序列:)。 我需要提取CTACG和CAGTC之間的每個序列。 但是,這些序列中的許多情況都帶有錯誤(刪除、插入、替換)。 有沒有辦法根據 Levenshtein 距離來解釋不匹配?ref <- c("CCTACGGTTATGTACGATTAAAGAAGAT ...

在 R 中查找字符串組之間的距離

[英]Find the distance between groups of string in R

我有一個非常大的數據集,看起來像這樣。 我有兩種類型的數據框我的參考數據框架 和我的實驗data.frame 我想匹配ref和expr data.frames 並找到它們之間的 levenstein 距離。 output 可能看起來像這樣...... 在我測量了他們的列文斯坦距離之后,我想將距離小 ...

R 大數據幀的模糊連接

[英]R fuzzy join with big dataframes

我想做一個基於模糊匹配的left_join(df1, df2) 。 我的df1有 100k 行,而我的df2有 25k 行。 基本上我想用 jaro winkler 方法計算兩個數據幀的join_colum之間的字符串相似度。 所以這將是 100k * 25k 比較。 我只想進行一場比賽,而不是多次 ...

忽略 stringdist::extract 中 maxDist 的大小寫

[英]Ignoring the case for maxDist in stringdist::extract

我在R使用stringdist包。 對於幾個選項: 它使用maxDist 。 但是,此選項將A和a之間的距離計為一。 就像A和b之間的距離。 對於maxDist ,我想忽略字母大小寫。 有誰知道怎么做? ...

2021-11-04 12:13:52   1   15    r / stringdist  
使用 stringdist 查找多個單詞的匹配項

[英]Finding matches for multiple words with stringdist

我有如下測試數據。 我正在嘗試使用stringdist為單詞向量查找(接近)匹配項,因為實際數據庫很大: 我試着跑: 編輯: 按照 zx8754 的評論,我嘗試了: 和: 我的印象是,前一行 ( amatch ) 會給我一些類似於索引向量的東西,其中會有匹配。 但它只是給了我一個帶 ...

逐字確定多詞串的(異)相似性

[英]Determine (dis)similarity of multi-word strings on a word-by-word basis

我正在研究多字字符串中的字符串距離,就像在這個玩具數據中一樣: 我想逐字確定每一行與下一行的(不同)相似性。 我使用這個代碼: 雖然結果似乎沒問題,但它存在三個問題:a) 有很多警告,b) 代碼看起來很復雜,c) distance是字符類型。 所以我想知道是否有更好的方法來逐字確定字符串的( ...

如何在 stringdist 連接中鎖定“by”列的第一個數字?

[英]How do I lock the first digits of the 'by' column in a stringdist join?

我正在嘗試使用 stringdist_join 合並兩個表。 我已經將我的 'by' 變量構建為三個變量的串聯,這些變量是這樣命名的: UAI : 序列號 nom : 姓 prenom : name 下面的代碼運行良好,但是我希望 UAI 部分完美匹配,它始終是變量 UAInomprenom ...

短語匹配,無論其 position 以逗號分隔

[英]Phrase match irrespective of their position seperated by comma

我有 2 個數據框,需要比較 df_1 和 df_2,並從 col_2 的 df_2 中獲取相似的字符串,並將它們匹配的短語數存儲在 df_out 數據框中 df_out dataframe的解釋 ...

順序不匹配和相似性

[英]Order mismatch and similarity

我有兩個值,它們的順序不匹配,理想情況下值相同。 當我計算字符串相似度時,它們之間的分數與理想分數相去甚遠 如何識別 col_1 和 col_2 是相似的,即使它們的順序是錯誤排列的。即是否有任何方法可以識別這兩個值在理想情況下是相同的 ...

最近的字符串匹配及其 rowId

[英]Nearest string match and their rowId

我正在嘗試將 df_1 dataframe 中的 col_1 與 df_2 dataframe 中的 col_2 進行比較,以獲得得分最低的前 3 名最近的匹配項(最低分代表最近的匹配項)及其各自的 rowid。 也可以靈活地更改前 N 個最接近的匹配項。即在我的情況下,我考慮了前 3 名,並像前 ...

使用 stringdist 進行字符串匹配

[英]String matching using stringdist

我有兩個數據框,其部門名稱與這些類似: 變量“depto”假設是相同的,但有一些差異。 我嘗試使用 stringdist 來匹配兩個數據幀。 結果如下: 我想知道一種方法來改善這一點。 第一個問題是 Cauca 和 Arauca 的部門總是匹配為相同。 第二個問題是d1中的一些部門包括自 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM