簡體   English   中英

根據列表對單詞進行標記

[英]Tokenize the words based on a list

我需要根據特定單詞列表對句子中的單詞進行標記。

wordlist = ["nlp - nltk", "CIFA R12 - INV"]

輸入示例:這是nlp - nltk CIFA R12 - INV示例文本。

在使用word_tokenize(Exapmle-input)時,這里我需要nlp - nltk作為一個令牌,而CIFA R12 - INV作為另一個令牌。 這有可能而不是獲得nlp - CIFA作為不同的令牌嗎?

對於那些將來來這里的人:
經過一番閱讀,我發現nltk.tokenize.mwe模塊是實現我上述要求的選項。

參考: http : //www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.mwe

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM