當使用nltk對單詞進行標記時，防止在叛逆者處分裂

Question

我正在使用nltk將句子分成單詞。 例如

 nltk.word_tokenize("The code didn't work!")
 -> ['The', 'code', 'did', "n't", 'work', '!']

標記化可以很好地分割單詞邊界[即從單詞中分割標點符號]，但有時會過度分割，單詞末尾的修飾符會被視為單獨的部分。 例如， didn't被分成部分did和n't和i've被分裂， I和've 。 顯然這是因為這些單詞在nltk使用的原始語料庫中被分成兩部分，並且在某些情況下可能是合乎需要的。

有沒有內置的方法來克服這種行為？ 可能與nltk's MWETokenizer如何能夠將多個單詞聚合為短語的方式類似，但在這種情況下，只是將單詞組件聚合為單詞。

或者，是否有另一個不分割單詞部分的標記器？

Answer 1

這實際上按預期工作：

這是正確/預期的輸出。 對於單詞標記化，收縮被認為是兩個單詞，因為它們具有意義。

不同的nltk標記nltk不同nltk處理英語語言的收縮。 例如，我發現TweetTokenizer沒有將收縮分為兩部分：

>>> from nltk.tokenize import TweetTokenizer
>>> tknzr = TweetTokenizer()
>>> tknzr.tokenize("The code didn't work!")
[u'The', u'code', u"didn't", u'work', u'!']

請在以下位置查看更多信息和解決方法：

當使用nltk對單詞進行標記時，防止在叛逆者處分裂

問題描述

1 個解決方案

解決方案1
21 已采納 2016-01-11 04:30:02

當使用nltk對單詞進行標記時，防止在叛逆者處分裂

問題描述

1 個解決方案

解決方案1 21 已采納 2016-01-11 04:30:02

解決方案1
21 已采納 2016-01-11 04:30:02