![](/img/trans.png)
[英]How to tokenize punctuations using the Tokenizer function tensorflow
[英]Tokenize with Regex Tokenizer
我想用正则表达式标记器标记以下句子
MOST INTERESTED IN NUT BUTTERS
当我将标记程序定义为
tokenizer = RegexpTokenizer(r'\w+')
我得到的输出
['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']
我想要的输出是
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
我想让NUT BUTTER成为一个元素,但我不明白该使用哪个正则表达式或\\ w +
请尝试split()
。
>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']
如果要使用正则表达式解决方案,则必须列出一个单词列表,这些单词包含必须被提取为一个空格的空格,并按以下方式构建正则表达式:
word space1|word space2|word space3|...|word spaceN|\w+
对于您的示例,它变为:
NUT BUTTERS|\w+
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.