[英]Consolidate data table factor levels in R
假设我有一个很大的数据表,其中一列是“ ManufacturerName”。 数据输入不一致,因此非常混乱。 例如,可能有如下观察结果:
ABC Inc
ABC, Inc
ABC Incorporated
A.B.C.
...
Joe Shmos Plumbing
Joe Shmo Plumbing
...
我正在R中寻找一种自动化的方法来尝试将相似的名称视为一个因素级别。 我已经学会了手动执行此操作的语法,例如:
levels(df$ManufacturerName) <- list(ABC=c("ABC", "A.B.C", ....), JoeShmoPlumbing=c(...))
但是我试图考虑一种自动化的解决方案。 显然,由于我无法预期数据表中的每种排列类型,因此它并不是完美的。 但是也许可以搜索因子水平,去除标点符号/特殊字符,并根据常见的第一个单词创建水平。 或其他任何想法。 谢谢!
查看stringdist
包。 对于初学者,您可以执行以下操作:
library(stringdist)
x <- c("ABC Inc", "ABC, Inc", "ABC Incorporated", "A.B.C.", "Joe Shmos Plumbing", "Joe Shmo Plumbing")
d <- stringdistmatrix(x)
# 1 2 3 4 5
# 2 1
# 3 9 10
# 4 6 7 15
# 5 16 16 16 18
# 6 15 15 15 17 1
要获得更多帮助,请参阅?stringdistmatrix
或在StackOverflow上进行模糊匹配,近似字符串匹配,字符串距离函数和agrep
。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.