簡體   English   中英

標簽為NLTK中的單個單詞

[英]Tagger for single words in NLTK

是否有一個標記器可以在任何上下文中為單詞返回單個標記?

我的要求是我需要從非結構化文本中提取單詞,其中句子沒有結構化語法。

POS標記符用於處理句子,並根據該句子中單詞的上下文返回單詞的標記。 所以,我要么必須使用另一個標記器,每次給我一個特定單詞的相同標簽,或者在分塊時使用所有可能的標簽。

任何其他解決方案將不勝感激。 另外,如何查看可以為特定單詞指定的所有標簽?

見: http//www.nltk.org/_modules/nltk/tag.html

尤其是:

>>> from nltk.corpus import brown
>>> from nltk.tag import UnigramTagger
>>> tagger = UnigramTagger(brown.tagged_sents(categories='news')[:500])
>>> sent = ['Mitchell', 'decried', 'the', 'high', 'rate', 'of', 'unemployment']
>>> for word, tag in tagger.tag(sent):
...     print(word, '->', tag)
Mitchell -> NP
decried -> None
the -> AT
high -> JJ
rate -> NN
of -> IN
unemployment -> None

UnigramTagger的想法是它總是為訓練語料庫中的特定單詞指定最突出的標簽。 或者(在文檔中的代碼段上方:

這個包定義了幾個標記器,它們采用一個標記列表(通常是一個句子),為每個標記分配一個標記,並返回標記標記的結果列表。 大多數標記符都是基於訓練語料庫自動構建的。 例如,單字組惡搞標簽每個詞w通過檢查有什么用W最頻繁的標簽在訓練語料庫:

不確定是否有內置方法可以查看可以分配給特定單詞的所有標記。 此外; 理論上,這可以與識別的標簽總數一樣長,因為它取決於上下文。 如果你想得到一個想法; 我要做的就是標記你的整個詞匯,並打印出你在該特定語料庫中分配的所有不同標簽的詞匯。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM