[英]Efficiency way to clean data in R
通過查看發布的數據,我的預感是,三列中的字符串在某些時候是從復合字符串中提取的,例如20210227_ASUS_HG0982_BR_981
,但在某些地方提取似乎出錯了。 如果這個假設是正確的,那么我建議回到原始字符串並修復提取,例如使用extract
function :
library(tidyverse)
data.frame(original) %>%
extract(original,
into = c("sale_date", "produst_model", "store_code"),
regex = "(\\d+)_(\\w+\\d+)_(\\w+)")
sale_date produst_model store_code
1 20210227 ASUS_HG0982 BR_981
數據:
original = "20210227_ASUS_HG0982_BR_981"
顯然,這里的正則表達式僅基於單個字符串,並且可能必須在您有更多字符串時立即進行調整。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.