R中清理數據的高效方式

Question

輸入是

如果我願意，第 3 行和第 5 行的格式不正確

發售日期	產品型號	商店代碼
20210208	華碩_DE552	AAE_08072
20210305	華碩_AC693	AAE_08072
20210107	華碩_DE551	AAR_7461
20210325	華碩_DB341	CMHT_654
20210227	華碩_HG0982	BR_981

如果這個表有 20,000 行，我是否有更有效的方法來檢查每一行是否匹配規則？

Answer 1

通過查看發布的數據，我的預感是，三列中的字符串在某些時候是從復合字符串中提取的，例如20210227_ASUS_HG0982_BR_981 ，但在某些地方提取似乎出錯了。 如果這個假設是正確的，那么我建議回到原始字符串並修復提取，例如使用extract function ：

library(tidyverse)
data.frame(original) %>%
  extract(original,
          into = c("sale_date", "produst_model", "store_code"),
          regex = "(\\d+)_(\\w+\\d+)_(\\w+)")
  sale_date produst_model store_code
1  20210227   ASUS_HG0982     BR_981

數據：

original = "20210227_ASUS_HG0982_BR_981"

顯然，這里的正則表達式僅基於單個字符串，並且可能必須在您有更多字符串時立即進行調整。

R中清理數據的高效方式

問題描述

1 個解決方案

解決方案1
0 已采納 2022-09-03 05:52:25

R中清理數據的高效方式

問題描述

1 個解決方案

解決方案1 0 已采納 2022-09-03 05:52:25

解決方案1
0 已采納 2022-09-03 05:52:25