簡體   English   中英

R中清理數據的高效方式

[英]Efficiency way to clean data in R

輸入是

在此處輸入圖像描述

如果我願意,第 3 行和第 5 行的格式不正確

發售日期 產品型號 商店代碼
20210208 華碩_DE552 AAE_08072
20210305 華碩_AC693 AAE_08072
20210107 華碩_DE551 AAR_7461
20210325 華碩_DB341 CMHT_654
20210227 華碩_HG0982 BR_981

如果這個表有 20,000 行,我是否有更有效的方法來檢查每一行是否匹配規則?

通過查看發布的數據,我的預感是,三列中的字符串在某些時候是從復合字符串中提取的,例如20210227_ASUS_HG0982_BR_981 ,但在某些地方提取似乎出錯了。 如果這個假設是正確的,那么我建議回到原始字符串並修復提取,例如使用extract function :

library(tidyverse)
data.frame(original) %>%
  extract(original,
          into = c("sale_date", "produst_model", "store_code"),
          regex = "(\\d+)_(\\w+\\d+)_(\\w+)")
  sale_date produst_model store_code
1  20210227   ASUS_HG0982     BR_981

數據:

original = "20210227_ASUS_HG0982_BR_981"

顯然,這里的正則表達式僅基於單個字符串,並且可能必須在您有更多字符串時立即進行調整。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM