[英]Tokenize the words based on a list
我需要根據特定單詞列表對句子中的單詞進行標記。
wordlist = ["nlp - nltk", "CIFA R12 - INV"]
輸入示例:這是nlp - nltk CIFA R12 - INV
示例文本。
在使用word_tokenize(Exapmle-input)時,這里我需要nlp - nltk
作為一個令牌,而CIFA R12 - INV
作為另一個令牌。 這有可能而不是獲得nlp
-
CIFA
作為不同的令牌嗎?
對於那些將來來這里的人:
經過一番閱讀,我發現nltk.tokenize.mwe模塊是實現我上述要求的選項。
參考: http : //www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.