簡體   English   中英

使用Regex令牌生成器令牌化

[英]Tokenize with Regex Tokenizer

我想用正則表達式標記器標記以下句子

MOST INTERESTED IN NUT BUTTERS

當我將標記程序定義為

tokenizer = RegexpTokenizer(r'\w+')          

我得到的輸出

['MOST', 'INTERESTED', 'IN', 'NUT', 'BUTTERS']

我想要的輸出是

['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

我想讓NUT BUTTER成為一個元素,但我不明白該使用哪個正則表達式或\\ w +

請嘗試split()

>>> str = 'MOST INTERESTED IN NUT BUTTERS'
>>> str.split(' ', 3) # 3 tells the number of splits it should do.
['MOST', 'INTERESTED', 'IN', 'NUT BUTTERS']

如果要使用正則表達式解決方案,則必須列出一個單詞列表,這些單詞包含必須被提取為一個空格的空格,並按以下方式構建正則表達式:

word space1|word space2|word space3|...|word spaceN|\w+

對於您的示例,它變為:

NUT BUTTERS|\w+

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM