删除 R 中除撇号以外的所有标点符号

Question

我想使用 R 的 gsub 从文本中删除除撇号之外的所有标点符号。 我对正则表达式相当陌生，但正在学习。

例子：

x <- "I like %$@to*&, chew;: gum, but don't like|}{[] bubble@#^)( gum!?"
gsub("[[:punct:]]", "", as.character(x))

电流输出（不要中没有撇号）

[1] "I like to chew gum but dont like bubble gum"

所需的输出（我希望不要留下撇号）

[1] "I like to chew gum but don't like bubble gum"

Answer 1

x <- "I like %$@to*&, chew;: gum, but don't like|}{[] bubble@#^)( gum!?"
gsub("[^[:alnum:][:space:]']", "", x)

[1] "I like to chew gum but don't like bubble gum"

上面的正则表达式更加直接。 它将所有不是字母数字符号、空格或撇号（插入符号！）的内容替换为空字符串。

Answer 2

您可以使用双重否定从 POSIX 类punct排除撇号：

[^'[:^punct:]]

代码：

x <- "I like %$@to*&, chew;: gum, but don't like|}{[] bubble@#^)( gum!?"
gsub("[^'[:^punct:]]", "", x, perl=T)

#[1] "I like to chew gum but don't like bubble gum"

ideone 演示

Answer 3

下面是一个例子：

>  gsub("(.*?)($|'|[^[:punct:]]+?)(.*?)", "\\2", x)
[1] "I like to chew gum but don't like bubble gum"

Answer 4

主要是为了多样性，这里有一个使用gsubfn()来自同名的极好的包的解决方案。 在这个应用程序中，我只是喜欢它所允许的解决方案的表现力：

library(gsubfn)
gsubfn(pattern = "[[:punct:]]", engine = "R",
       replacement = function(x) ifelse(x == "'", "'", ""), 
       x)
[1] "I like to chew gum but don't like bubble gum"

（这里需要参数engine = "R"否则将使用默认的 tcl 引擎。它匹配正则表达式的规则略有不同：例如，如果它用于处理上面的字符串，则需要改为设置pattern = "[[:punct:]$|^]" 。感谢 G. Grothendieck 指出这个细节。）

删除 R 中除撇号以外的所有标点符号

问题描述

4 个解决方案

解决方案1
40 已采纳 2012-01-02 07:18:55

解决方案2
7 2015-10-11 05:07:11

解决方案3
7 2012-01-02 03:32:36

解决方案4
5 2012-01-02 05:45:15

删除 R 中除撇号以外的所有标点符号

问题描述

4 个解决方案

解决方案1 40 已采纳 2012-01-02 07:18:55

解决方案2 7 2015-10-11 05:07:11

解决方案3 7 2012-01-02 03:32:36

解决方案4 5 2012-01-02 05:45:15

解决方案1
40 已采纳 2012-01-02 07:18:55

解决方案2
7 2015-10-11 05:07:11

解决方案3
7 2012-01-02 03:32:36

解决方案4
5 2012-01-02 05:45:15