合並R中的數據表因子級別

Question

假設我有一個很大的數據表，其中一列是“ ManufacturerName”。 數據輸入不一致，因此非常混亂。 例如，可能有如下觀察結果：

ABC Inc
ABC, Inc
ABC Incorporated
A.B.C.
...
Joe Shmos Plumbing
Joe Shmo Plumbing
...

我正在R中尋找一種自動化的方法來嘗試將相似的名稱視為一個因素級別。 我已經學會了手動執行此操作的語法，例如：

levels(df$ManufacturerName) <- list(ABC=c("ABC", "A.B.C", ....), JoeShmoPlumbing=c(...))

但是我試圖考慮一種自動化的解決方案。 顯然，由於我無法預期數據表中的每種排列類型，因此它並不是完美的。 但是也許可以搜索因子水平，去除標點符號/特殊字符，並根據常見的第一個單詞創建水平。 或其他任何想法。 謝謝！

Answer 1

查看stringdist包。 對於初學者，您可以執行以下操作：

library(stringdist)

x <- c("ABC Inc", "ABC, Inc", "ABC Incorporated", "A.B.C.", "Joe Shmos Plumbing", "Joe Shmo Plumbing")
d <- stringdistmatrix(x)
#    1  2  3  4  5
# 2  1            
# 3  9 10         
# 4  6  7 15      
# 5 16 16 16 18   
# 6 15 15 15 17  1

要獲得更多幫助，請參閱?stringdistmatrix或在StackOverflow上進行模糊匹配，近似字符串匹配，字符串距離函數和agrep 。

合並R中的數據表因子級別

問題描述

1 個解決方案

解決方案1
0 2015-10-06 19:57:58

合並R中的數據表因子級別

問題描述

1 個解決方案

解決方案1 0 2015-10-06 19:57:58

解決方案1
0 2015-10-06 19:57:58