R中清理数据的高效方式

Question

输入是

如果我愿意，第 3 行和第 5 行的格式不正确

发售日期	产品型号	商店代码
20210208	华硕_DE552	AAE_08072
20210305	华硕_AC693	AAE_08072
20210107	华硕_DE551	AAR_7461
20210325	华硕_DB341	CMHT_654
20210227	华硕_HG0982	BR_981

如果这个表有 20,000 行，我是否有更有效的方法来检查每一行是否匹配规则？

Answer 1

通过查看发布的数据，我的预感是，三列中的字符串在某些时候是从复合字符串中提取的，例如20210227_ASUS_HG0982_BR_981 ，但在某些地方提取似乎出错了。 如果这个假设是正确的，那么我建议回到原始字符串并修复提取，例如使用extract function ：

library(tidyverse)
data.frame(original) %>%
  extract(original,
          into = c("sale_date", "produst_model", "store_code"),
          regex = "(\\d+)_(\\w+\\d+)_(\\w+)")
  sale_date produst_model store_code
1  20210227   ASUS_HG0982     BR_981

数据：

original = "20210227_ASUS_HG0982_BR_981"

显然，这里的正则表达式仅基于单个字符串，并且可能必须在您有更多字符串时立即进行调整。

R中清理数据的高效方式

问题描述

1 个解决方案

解决方案1
0 已采纳 2022-09-03 05:52:25

R中清理数据的高效方式

问题描述

1 个解决方案

解决方案1 0 已采纳 2022-09-03 05:52:25

解决方案1
0 已采纳 2022-09-03 05:52:25