Python Regex句子过滤

Question

我正在尝试过滤以下句子

'I'm using C++ in high-tech applications!', said peter (in a confident way)

变成自己的话

I'm using C++ in high-tech applications said peter in a confident way

我到目前为止所拥有的是

parsing=re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*",text)
' '.join(w for w in parsing if w not in string.punctuation)

但这会产生

I'm using C in high-tech applications said peter in a confident way

因此，“ C ++”错误地变成了“ C”，因为“ +”在string。标点中。 无论如何，我是否可以修改正则表达式代码以允许不对'+'进行标记化？ 任何其他获得所需输出的方法都将受到欢迎，谢谢！

Answer 1

只需使用(\\w|\\+)而不是\\w 。 这将同时使用文字字符和加号。

另外，您可以使用[a-zA-Z+]或理想情况下使用[\\w+]如Kyle Strand所建议。

Answer 2

与C0deH4cker的答案类似，但稍微简单一点，用[\\w+]替换\\w所有实例。

>>> parsing=re.findall(r"[\w+]+(?:[-'][\w+]+)*|'|[-.(]+|\S[\w+]*",text)
>>> parsing
["'", "I'm", 'using', 'C++', 'in', 'high-tech', 'applications', '!', "'", ',', 'said', 'peter', '(', 'in', 'a', 'confident', 'way', ')']
>>> ' '.join(w for w in parsing if w not in string.punctuation)
"I'm using C++ in high-tech applications said peter in a confident way"

请注意，您原始的解决方案将“ C ++”分为三个不同的标记，因此即使从string.punctuation排除+也无法解决您的问题：

>>> parsing=re.findall(r"\w+(?:[-']\w+)*|'|[-.(]+|\S\w*",text)
>>> parsing
["'", "I'm", 'using', 'C', '+', '+', 'in', 'high-tech', 'applications', '!', "'", ',', 'said', 'r', '(', 'in', 'a', 'confident', 'way', ')']

Python Regex句子过滤

问题描述

2 个解决方案

解决方案1
3 已采纳 2013-10-02 19:51:21

解决方案2
3 2013-10-02 19:54:10

Python Regex句子过滤

问题描述

2 个解决方案

解决方案1 3 已采纳 2013-10-02 19:51:21

解决方案2 3 2013-10-02 19:54:10

解决方案1
3 已采纳 2013-10-02 19:51:21

解决方案2
3 2013-10-02 19:54:10