R：在逗號之間提取單詞？

Question

假設我有一個字符串，其中包含以逗號分隔的各種單詞。

"Hello, 1000, "Oh shit, a comma", helloagain"

我想取這樣一個字符串，並給定一個值n ，提取第 n 個和第 (n+1) 個逗號之間的單詞。

因此，例如，如果n = 1 ，我想提取1000 。 如果n = 2 ，我想提取"Oh shit, a comma" 。 等等。

我該怎么做呢？

請注意，逗號之間的單詞可以在引號中包含逗號...也可以為空，例如字符串也可以是

"Hello,, 1000"

對於n = 1 ，我們想要單詞"" 。

Answer 1

假設您打算將引用的字符串保持在一起（未拆分），這是一個嘗試：

s <- "Hello, 1000, \"Oh shit, a_comma\", helloagain"
gre <- gregexpr("[^\\s\"']+|\"([^\"]*)\"|'([^']*)'", s)
unlist(lapply(regmatches(s, gre), function(z) {
  ifelse(grepl('^"', z), z,
         strsplit(gsub('"', '', z), "[ ,]+"))
}))
# [1] "Hello"                "1000"                 "\"Oh shit, a_comma\"" ""                    
# [5] "helloagain"

從這里開始，它只是簡單的索引。

另一個可能更好的選擇，注意有人可能已經想出了如何正確標記可選引用的分隔文本（當以這種方式表達時，可能會引發read.csv或read.table的想法）。 沒有真正需要嘗試使用正則表達式（ https://xkcd.com/1171/ ）重新發明輪子。

read.csv(text = s, header = FALSE, stringsAsFactors = FALSE)
#      V1   V2                V3          V4
# 1 Hello 1000  Oh shit, a_comma  helloagain

如果您的字符串向量都具有相同數量的逗號/字段，那么您可以按原樣使用它：

read.csv(text = rep(s, 3), header = FALSE, stringsAsFactors = FALSE)
#      V1   V2                V3          V4
# 1 Hello 1000  Oh shit, a_comma  helloagain
# 2 Hello 1000  Oh shit, a_comma  helloagain
# 3 Hello 1000  Oh shit, a_comma  helloagain

但是，如果它們有不同數量的逗號，則需要手動迭代它們：

out <- lapply(rep(s, 3), function(a) read.csv(text = a, header = FALSE, stringsAsFactors = FALSE))
out
# [[1]]
#      V1   V2                V3          V4
# 1 Hello 1000  Oh shit, a_comma  helloagain
# [[2]]
#      V1   V2                V3          V4
# 1 Hello 1000  Oh shit, a_comma  helloagain
# [[3]]
#      V1   V2                V3          V4
# 1 Hello 1000  Oh shit, a_comma  helloagain

然后你可以從每個中獲取第n個：

sapply(out, `[[`, 2)
# [1] 1000 1000 1000

或每個不同的索引位置：

mapply(`[[`, out, c(1,3,2))
# [1] "Hello"             " Oh shit, a_comma" "1000"

R：在逗號之間提取單詞？

問題描述

1 個解決方案

解決方案1
1 2019-11-23 18:16:38

R：在逗號之間提取單詞？

問題描述

1 個解決方案

解決方案1 1 2019-11-23 18:16:38

解決方案1
1 2019-11-23 18:16:38