標簽為NLTK中的單個單詞

Question

是否有一個標記器可以在任何上下文中為單詞返回單個標記？

我的要求是我需要從非結構化文本中提取單詞，其中句子沒有結構化語法。

POS標記符用於處理句子，並根據該句子中單詞的上下文返回單詞的標記。 所以，我要么必須使用另一個標記器，每次給我一個特定單詞的相同標簽，或者在分塊時使用所有可能的標簽。

任何其他解決方案將不勝感激。 另外，如何查看可以為特定單詞指定的所有標簽？

Answer 1

見： http ： //www.nltk.org/_modules/nltk/tag.html

尤其是：

>>> from nltk.corpus import brown
>>> from nltk.tag import UnigramTagger
>>> tagger = UnigramTagger(brown.tagged_sents(categories='news')[:500])
>>> sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']
>>> for word, tag in tagger.tag(sent):
...     print(word, '->', tag)
Mitchell -> NP
decried -> None
the -> AT
high -> JJ
rate -> NN
of -> IN
unemployment -> None

UnigramTagger的想法是它總是為訓練語料庫中的特定單詞指定最突出的標簽。 或者（在文檔中的代碼段上方：

這個包定義了幾個標記器，它們采用一個標記列表（通常是一個句子），為每個標記分配一個標記，並返回標記標記的結果列表。 大多數標記符都是基於訓練語料庫自動構建的。 例如，單字組惡搞標簽每個詞w通過檢查有什么用W最頻繁的標簽在訓練語料庫：

不確定是否有內置方法可以查看可以分配給特定單詞的所有標記。 此外; 理論上，這可以與識別的標簽總數一樣長，因為它取決於上下文。 如果你想得到一個想法; 我要做的就是標記你的整個詞匯，並打印出你在該特定語料庫中分配的所有不同標簽的詞匯。

標簽為NLTK中的單個單詞

問題描述

1 個解決方案

解決方案1
3 已采納 2015-03-19 13:37:45

標簽為NLTK中的單個單詞

問題描述

1 個解決方案

解決方案1 3 已采納 2015-03-19 13:37:45

解決方案1
3 已采納 2015-03-19 13:37:45