NLTK詞性標注器是使用全局信息還是僅使用被標記的單詞？

Question

我目前正在使用NLTK的“nltk.pos_tag”進行一些詞性標注。 我想知道NLTK的標記器是否使用了當前被標記的單詞之外的信息來確定單詞的POS？

如果沒有，NLTK會有一個標記器來執行此操作嗎？

在此先感謝您的任何信息！

Answer 1

pos_tag函數調用加載_POS_TAGGER的pickle 。 這是一個可能在Penn Treebank POS注釋文本上訓練的最大熵標記器。 MaxEnt標記用於確定詞性的信息將基於訓練中使用的特征集。 這意味着，它在技術上只能使用單個單詞的功能，但這不太可能，因為標記器不准確（並且它不會充分利用機器學習來生成標記器）。 考慮使用Python進行自然語言處理的第5章中給出的示例，

>>> text = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
>>> nltk.pos_tag(text)
[('They', 'PRP'), ('refuse', 'VBP'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'),
('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]

由於“拒絕”和“許可”每個都根據上下文給出不同的標簽，我們可以肯定地說它確實使用了先前單詞的特征（如他們的POS標簽）。

NLTK詞性標注器是使用全局信息還是僅使用被標記的單詞？

問題描述

1 個解決方案

解決方案1
10 已采納 2013-03-22 23:02:38

NLTK詞性標注器是使用全局信息還是僅使用被標記的單詞？

問題描述

1 個解決方案

解決方案1 10 已采納 2013-03-22 23:02:38

解決方案1
10 已采納 2013-03-22 23:02:38