使用Regex令牌生成器令牌化

Question

我想用正则表达式标记器标记以下句子

MOST INTERESTED IN NUT BUTTERS

当我将标记程序定义为

tokenizer = RegexpTokenizer(r'\w+')

我得到的输出

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

我想要的输出是

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

我想让NUT BUTTER成为一个元素，但我不明白该使用哪个正则表达式或\\ w +

Answer 1

请尝试split() 。

>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

Answer 2

如果要使用正则表达式解决方案，则必须列出一个单词列表，这些单词包含必须被提取为一个空格的空格，并按以下方式构建正则表达式：

word space1|word space2|word space3|...|word spaceN|\w+

对于您的示例，它变为：

NUT BUTTERS|\w+

使用Regex令牌生成器令牌化

问题描述

2 个解决方案

解决方案1
0 2017-12-19 06:53:40

解决方案2
0 已采纳 2017-12-19 06:56:08

使用Regex令牌生成器令牌化

问题描述

2 个解决方案

解决方案1 0 2017-12-19 06:53:40

解决方案2 0 已采纳 2017-12-19 06:56:08

解决方案1
0 2017-12-19 06:53:40

解决方案2
0 已采纳 2017-12-19 06:56:08