标记荷兰语单词

Question

阅读这篇文章，我发现我可以使用荷兰语句子标记器，如下所示：

nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/dutch.pickle')
tokernizer.tokenize('Ik liep naar huis. Dat deed ik gisteren')

但是有没有办法使用荷兰语单词标记器？ 英文版（默认的“punkt”）似乎可以工作，但我猜它在某些时候可能会出错 go

Answer 1

从文档中：

nltk.tokenize.word_tokenize(text, language='english', preserve_line=False)

似乎您可以指定语言：

nltk.word_tokenize('Ik liep naar huis. Dat deed ik gisteren', language='dutch')

还要注意，'punkt' 是一个句子标记器，它会将文档分割成句子。 nltk.word_tokenize执行 punt，然后执行分词器。

或者，您可以检查spacy 。