繁体   English   中英

NLTK WordNetLemmatizer 为特定单词返回的 (?) 引理不正确

[英]Incorrect (?) lemma returned by NLTK WordNetLemmatizer for particular words

我正在阅读这篇文章并在我自己的数据上进行实验,我发现文章中给出的两个例子和我的一个词都没有按照描述的那样工作。 您可以参考这篇文章以获取更多信息,尽管这里的问题可以解决一切问题。

# stemmed root words: Books, Braveri, Harri, Transpar
from nltk.stem.wordnet import WordNetLemmatizer as Lemmatizer

# the article shared the same lemmatizer initialization.
lem = WordNetLemmatizer()

# returned 'harry' in the example without pos tag
In [269]: lem.lemmatize('harri', pos='n')
Out[269]: 'harri'

In [270]: lem.lemmatize("Books", pos='n')
Out[269]: 'Books'

# returned 'book' in the example with pos tag
In [270]: lem.lemmatize("Books", pos='v')
Out[269]: 'Books'

# my example root word, didn't change at all
[ins] In [278]: lem.lemmatize("Transpar", pos="a")
Out[278]: 'Transpar'
[ins] In [281]: lem.lemmatize("Transpar", pos="n")
Out[281]: 'Transpar'

# returned 'bravery' in the example without pos tag
[ins] In [280]: lem.lemmatize("Braveri", pos="n")
Out[280]: 'Braveri'

此 lemmatizer 的默认 pos 标签只是wordnet.NOUN因此提供 pos 标签与否不会有什么不同。 仅供参考, transpar最初是transparent

唯一的区别是作者使用 NLTK 词干提取器texthero.stem单词,而我使用的是texthero.stem

是我做错了还是 NLTK 发生了一些变化?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM