繁体   English   中英

标记荷兰语单词

[英]Tokenizing dutch words

阅读这篇文章,我发现我可以使用荷兰语句子标记器,如下所示:

nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')

但是有没有办法使用荷兰语单词标记器? 英文版(默认的“punkt”)似乎可以工作,但我猜它在某些时候可能会出错 go

文档中:

nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)

似乎您可以指定语言:

nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')

还要注意,'punkt' 是一个句子标记器,它会将文档分割成句子。 nltk.word_tokenize执行 punt,然后执行分词器。

或者,您可以检查spacy

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM