繁体   English   中英

如何提取数据框内字符向量中某个位置的数字

[英]how to extract numbers that are in certain position in the character vector within a data frame

我有一个看起来像这样的csv文件:

data[1,]"0;0;0;0";"0;0;0;0";"1395,387994;0;0;0";"1438,433382;0;0;0";"1477,891654;0;0;0";NA;NA;NA;NA
data[2,]"0;0;0;0";"1129,941435;0;0;0";"1140,702782;0;0;0";"1140,702782;0;0;0";"2415,922401;0;0;0";"2469,729136;0;0;0";"2545,058565;0;0;0";NA;NA
data[3,]"0;0;0;0";"0;0;0;0";"0;0;0;0";"0;0;0;0";"1506,58858;0;0;0";"1506,58858;0;0;0";"1517,349927;0;0;0";"1528,111274;0;0;0";NA

基本上它的238乘581数据帧。 我想要的是将NA保持为NA,将“0; 0; 0; 0”转换为NA并从对象获得第一个数字,其中第一个数字为第一个位置的非零值,如“1506,58858; 0; 0; 0" 。

结果应如下所示:

data[1,] NA NA 1395,387994 1438,433382 1140,702782 Na NA NA NA
data[2,] NA 1129,941435 1140,702782 1140,702782 2415,922401 2469,729136 2545,058565 NA NA
data[2,] NA NA NA NA 1506,58858 1506,58858 1517,349927 1528,111274 NA

我读了这样的数据:

f0=read.table("D:../f0.per.call.csv",sep=";",na.strings =c("NA","0;0;0;0"),stringsAsFactors = FALSE)

我知道这是一项非常容易的任务,但我无法弄明白,当我尝试将字符转换为数值时,我会继续出错。任何帮助都将不胜感激,谢谢。

在我读完文件后,我会分两步完成:

  • 用NA替换“0; 0; 0; 0”
  • 使用正则表达式删除“0; 0; 0;” 在一些专栏的末尾

这是我用来替换“0; 0; 0”的代码:

dat <- read.table("D:../f0.per.call.csv",
        sep=";",na.strings =c("NA"),stringsAsFactors = FALSE)
dat[dat=="0;0;0;0"] <- NA
sapply(dat,function(x)gsub("(.*);0;0;0","\\1",x))

     V1 V2            V3            V4            V5            V6            V7            V8            V9
[1,] NA NA            "1395,387994" "1438,433382" "1477,891654" NA            NA            NA            NA
[2,] NA "1129,941435" "1140,702782" "1140,702782" "2415,922401" "2469,729136" "2545,058565" NA            NA
[3,] NA NA            NA            NA            "1506,58858"  "1506,58858"  "1517,349927" "1528,111274" NA

在读入数据后,您可以使用strsplit并使用lapply / sapply / vapply仅提取第一个项目。 这是一个例子:

f0 <- read.table("D:../f0.per.call.csv", sep=";", 
                 na.strings = c("NA","0;0;0;0"), 
                 stringsAsFactors = FALSE)
f0[] <- lapply(f0, function(y) 
  vapply(strsplit(as.character(y), ";"), 
         function(z) z[[1]], ""))
f0
#     V1          V2          V3          V4          V5          V6          V7          V8   V9
# 1 <NA>        <NA> 1395,387994 1438,433382 1477,891654        <NA>        <NA>        <NA> <NA>
# 2 <NA> 1129,941435 1140,702782 1140,702782 2415,922401 2469,729136 2545,058565        <NA> <NA>
# 3 <NA>        <NA>        <NA>        <NA>  1506,58858  1506,58858 1517,349927 1528,111274 <NA>

这里的结果是data.frame ,就像输入是data.frame

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM