NLTK 使用語料庫標記西班牙語單詞

[英]NLTK Tagging spanish words using a corpus

我正在嘗試學習如何使用 NLTK 標記西班牙語單詞。

nltk book 中,使用他們的示例標記英語單詞非常容易。 因為我是 nltk 和所有語言處理的新手,所以我對如何進行感到很困惑。

我已經下載了cess_esp語料庫。 有沒有辦法在nltk.pos_tag指定一個語料庫。 我查看了pos_tag文檔,但沒有看到任何建議我可以的內容。 我覺得我錯過了一些關鍵概念。 我是否必須在 cess_esp 語料庫中手動標記文本中的單詞? (手動我的意思是標記我的句子並在語料庫中再次運行它)或者我完全不合時宜。 謝謝

首先,您需要從語料庫中讀取標記的句子。 NLTK 提供了一個很好的界面,不用擔心來自不同語料庫的不同格式; 您可以簡單地導入語料庫,使用語料庫對象函數來訪問數據。 請參閱http://nltk.googlecode.com/svn/trunk/nltk_data/index.xml

然后您必須選擇您選擇的標記器並訓練標記器 還有更多花哨的選項,但您可以從 N-gram 標記器開始。

然后你就可以使用標注器來標注你想要的句子了。 這是一個示例代碼:

from nltk.corpus import cess_esp as cess
from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt

# Read the corpus into a list, 
# each entry in the list is one sentence.
cess_sents = cess.tagged_sents()

# Train the unigram tagger
uni_tag = ut(cess_sents)

sentence = "Hola , esta foo bar ."

# Tagger reads a list of tokens.
uni_tag.tag(sentence.split(" "))

# Split corpus into training and testing set.
train = int(len(cess_sents)*90/100) # 90%

# Train a bigram tagger with only training data.
bi_tag = bt(cess_sents[:train])

# Evaluates on testing data remaining 10%

# Using the tagger.
bi_tag.tag(sentence.split(" "))

在大型語料庫上訓練標注器可能需要很長時間。 與每次需要時都訓練一個標記器不同,將訓練過的標記器保存在一個文件中以供以后重用是很方便的。

請查看http://nltk.googlecode.com/svn/trunk/doc/book/ch05.html 中的存儲標記器部分

鑒於上一個答案中的教程,這里有一種來自 spaghetti tagger 的更面向對象的方法: https : //github.com/alvations/spaghetti-tagger

#-*- coding: utf8 -*-

from nltk import UnigramTagger as ut
from nltk import BigramTagger as bt
from cPickle import dump,load

def loadtagger(taggerfilename):
    infile = open(taggerfilename,'rb')
    tagger = load(infile); infile.close()
    return tagger

def traintag(corpusname, corpus):
    # Function to save tagger.
    def savetagger(tagfilename,tagger):
        outfile = open(tagfilename, 'wb')
        dump(tagger,outfile,-1); outfile.close()
    # Training UnigramTagger.
    uni_tag = ut(corpus)
    # Training BigramTagger.
    bi_tag = bt(corpus)
    print "Tagger trained with",corpusname,"using" +\
                "UnigramTagger and BigramTagger."

# Function to unchunk corpus.
def unchunk(corpus):
    nomwe_corpus = []
    for i in corpus:
        nomwe = " ".join([j[0].replace("_"," ") for j in i])
    return nomwe_corpus

class cesstag():
    def __init__(self,mwe=True):
        self.mwe = mwe
        # Train tagger if it's used for the first time.
        except IOError:
            print "*** First-time use of cess tagger ***"
            print "Training tagger ..."
            from nltk.corpus import cess_esp as cess
            cess_sents = cess.tagged_sents()
            # Trains the tagger with no MWE.
            cess_nomwe = unchunk(cess.tagged_sents())
            tagged_cess_nomwe = batch_pos_tag(cess_nomwe)
        # Load tagger.
        if self.mwe == True:
            self.uni = loadtagger('cess_unigram.tagger')
            self.bi = loadtagger('cess_bigram.tagger')
        elif self.mwe == False:
            self.uni = loadtagger('cess_nomwe_unigram.tagger')
            self.bi = loadtagger('cess_nomwe_bigram.tagger')

def pos_tag(tokens, mmwe=True):
    tagger = cesstag(mmwe)
    return tagger.uni.tag(tokens)

def batch_pos_tag(sentences, mmwe=True):
    tagger = cesstag(mmwe)
    return tagger.uni.batch_tag(sentences)

tagger = cesstag()
print tagger.uni.tag('Mi colega me ayuda a programar cosas .'.split())

我最終在這里搜索了其他語言的 POS 標記器,然后是英語。 您的問題的另一個選擇是使用 Spacy 庫。 它提供多種語言的 POS 標記,例如荷蘭語、德語、法語、葡萄牙語、西班牙語、挪威語、意大利語、希臘語和立陶宛語。

來自 Spacy 文檔:

import es_core_news_sm
nlp = es_core_news_sm.load()
doc = nlp("El copal se usa principalmente para sahumar en distintas ocasiones como lo son las fiestas religiosas.")
print([(w.text, w.pos_) for w in doc])


[('El', 'DET'), ('copal', 'NOUN'), ('se', 'PRON'), ('usa', 'VERB'), ('principalmente', 'ADV') , ('para', 'ADP'), ('sahumar', 'VERB'), ('en', 'ADP'), ('distintas', 'DET'), ('ocasiones', 'NOUN') , ('como', 'SCONJ'), ('lo', 'PRON'), ('son', 'AUX'), ('las', 'DET'), ('fiestas', 'NOUN') , ('religiosas', 'ADJ'), ('.', 'PUNCT')]


displacy.render(doc, style='dep', jupyter = True, options = {'distance': 120})


以下腳本為您提供了一種快速獲取西班牙語句子中的“詞袋”的方法。 請注意,如果你想正確地做到這一點,你必須在標記之前標記句子,所以 'religiosas'。 必須用兩個標記 'religiosas','.' 分隔。

#-*- coding: utf8 -*-

# about the tagger: http://nlp.stanford.edu/software/tagger.shtml 
# about the tagset: nlp.lsi.upc.edu/freeling/doc/tagsets/tagset-es.html

import nltk

from nltk.tag.stanford import POSTagger

spanish_postagger = POSTagger('models/spanish.tagger', 'stanford-postagger.jar', encoding='utf8')

sentences = ['El copal se usa principalmente para sahumar en distintas ocasiones como lo son las fiestas religiosas.','Las flores, hojas y frutos se usan para aliviar la tos y también se emplea como sedante.']

for sent in sentences:

    words = sent.split()
    tagged_words = spanish_postagger.tag(words)

    nouns = []

    for (word, tag) in tagged_words:

        print(word+' '+tag).encode('utf8')
        if isNoun(tag): nouns.append(word)



El da0000
copal nc0s000
se p0000000
usa vmip000
principalmente rg
para sp000
sahumar vmn0000
en sp000
distintas di0000
ocasiones nc0p000
como cs
lo pp000000
son vsip000
las da0000
fiestas nc0p000
religiosas. np00000
[u'copal', u'ocasiones', u'fiestas', u'religiosas.']
Las da0000
flores, np00000
hojas nc0p000
y cc
frutos nc0p000
se p0000000
usan vmip000
para sp000
aliviar vmn0000
la da0000
tos nc0s000
y cc
también rg
se p0000000
emplea vmip000
como cs
sedante. nc0s000
[u'flores,', u'hojas', u'frutos', u'tos', u'sedante.']


