使用Regex令牌生成器令牌化

Question

我想用正則表達式標記器標記以下句子

MOST INTERESTED IN NUT BUTTERS

當我將標記程序定義為

tokenizer = RegexpTokenizer(r'\w+')

我得到的輸出

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

我想要的輸出是

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

我想讓NUT BUTTER成為一個元素，但我不明白該使用哪個正則表達式或\\ w +

Answer 1

請嘗試split() 。

>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

Answer 2

如果要使用正則表達式解決方案，則必須列出一個單詞列表，這些單詞包含必須被提取為一個空格的空格，並按以下方式構建正則表達式：

word space1|word space2|word space3|...|word spaceN|\w+

對於您的示例，它變為：

NUT BUTTERS|\w+

使用Regex令牌生成器令牌化

問題描述

2 個解決方案

解決方案1
0 2017-12-19 06:53:40

解決方案2
0 已采納 2017-12-19 06:56:08

使用Regex令牌生成器令牌化

問題描述

2 個解決方案

解決方案1 0 2017-12-19 06:53:40

解決方案2 0 已采納 2017-12-19 06:56:08

解決方案1
0 2017-12-19 06:53:40

解決方案2
0 已采納 2017-12-19 06:56:08