簡體   English   中英

NLTK詞性標注器是使用全局信息還是僅使用被標記的單詞?

[英]Does NLTK parts of speech tagger use global information or just the word that is being tagged?

我目前正在使用NLTK的“nltk.pos_tag”進行一些詞性標注。 我想知道NLTK的標記器是否使用了當前被標記的單詞之外的信息來確定單詞的POS?

如果沒有,NLTK會有一個標記器來執行此操作嗎?

在此先感謝您的任何信息!

pos_tag函數調用加載_POS_TAGGERpickle 這是一個可能在Penn Treebank POS注釋文本上訓練的最大熵標記器。 MaxEnt標記用於確定詞性的信息將基於訓練中使用的特征集。 這意味着,它在技術上只能使用單個單詞的功能,但這不太可能,因為標記器不准確(並且它不會充分利用機器學習來生成標記器)。 考慮使用Python進行自然語言處理的第5章中給出的示例,

>>> text = nltk.word_tokenize("They refuse to permit us to obtain the refuse permit")
>>> nltk.pos_tag(text)
[('They', 'PRP'), ('refuse', 'VBP'), ('to', 'TO'), ('permit', 'VB'), ('us', 'PRP'),
('to', 'TO'), ('obtain', 'VB'), ('the', 'DT'), ('refuse', 'NN'), ('permit', 'NN')]

由於“拒絕”和“許可”每個都根據上下文給出不同的標簽,我們可以肯定地說它確實使用了先前單詞的特征(如他們的POS標簽)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM