如何在NLTK中為復制器添加復合詞？

Question

所以，我想知道是否有人知道如何組合多個術語來在NLTK中的標記器中創建單個術語。 。

例如，當我這樣做時：

nltk.pos_tag(nltk.word_tokenize('Apple Incorporated is the largest company'))

它給了我：

[('Apple', 'NNP'), ('Incorporated', 'NNP'), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), ('company', 'NN')]

如何將'Apple'和'Incorporated'放在一起('Apple Incorporated','NNP')

Answer 1

你可以試試看看nltk.RegexParser 。 它允許您根據正則表達式對部分語音標記內容進行分塊。 在你的例子中，你可以做類似的事情

pattern = "NP:{<NN|NNP|NNS|NNPS>+}"
c = nltk.RegexpParser(p)
t = c.parse(nltk.pos_tag(nltk.word_tokenize("Apple Incorporated is the largest company")))
print t

這會給你：

Tree('S', [Tree('NP', [('Apple', 'NNP'), ('Incorporated', 'NNP')]), ('is', 'VBZ'), ('the', 'DT'), ('largest', 'JJS'), Tree('NP', [('company', 'NN')])])

Answer 2

代碼正在完成它應該做的事情。 它正在為令牌添加詞性標簽。 'Apple Incorporated'不是一個單一的標記。 它是兩個單獨的令牌，因此不能應用單個POS標簽。 這是正確的行為。

我想知道你是否正在嘗試使用錯誤的工具來完成工作。 你想做什么/你為什么要這樣做？ 也許您有興趣識別搭配而不是POS標記？ 你可以看看這里：搭配模塊

如何在NLTK中為復制器添加復合詞？

問題描述

2 個解決方案

解決方案1
1 2013-06-10 12:25:55

解決方案2
0 2013-06-11 14:33:22

如何在NLTK中為復制器添加復合詞？

問題描述

2 個解決方案

解決方案1 1 2013-06-10 12:25:55

解決方案2 0 2013-06-11 14:33:22

解決方案1
1 2013-06-10 12:25:55

解決方案2
0 2013-06-11 14:33:22