解析文本以獲取專有名詞（名稱和組織）-python nltk

Question

我正在嘗試從非常小的文本塊（如 sms）中提取專有名詞，如名稱和組織名稱中的專有名詞，nltk 提供的基本解析器使用 NLTK WordNet 查找專有名詞能夠獲得名詞，但問題是當我們獲得專有名詞時不以大寫字母開頭，對於這樣的文本，像 sumit 這樣的名字不會被識別為專有名詞

>>> sentence = "i spoke with sumit and rajesh and Samit about the gridlock situation last night @ around 8 pm last nite"
>>> tagged_sent = pos_tag(sentence.split())
>>> print tagged_sent
[('i', 'PRP'), ('spoke', 'VBP'), ('with', 'IN'), **('sumit', 'NN')**, ('and', 'CC'), ('rajesh', 'JJ'), ('and', 'CC'), **('Samit', 'NNP'),** ('about', 'IN'), ('the', 'DT'), ('gridlock', 'NN'), ('situation', 'NN'), ('last', 'JJ'), ('night', 'NN'), ('@', 'IN'), ('around', 'IN'), ('8', 'CD'), ('pm', 'NN'), ('last', 'JJ'), ('nite', 'NN')]

Answer 1

有更好的方法來提取人員和組織的名稱

from nltk import pos_tag, ne_chunk
from nltk.tokenize import SpaceTokenizer

tokenizer = SpaceTokenizer()
toks = tokenizer.tokenize(sentence)
pos = pos_tag(toks)
chunked_nes = ne_chunk(pos) 

nes = [' '.join(map(lambda x: x[0], ne.leaves())) for ne in chunked_nes if isinstance(ne, nltk.tree.Tree)]

然而，所有命名實體識別器都會出錯。 如果你真的不想錯過任何專有名稱，你可以使用專有名稱的字典並檢查名稱是否包含在字典中。

Answer 2

您可能想看看python-nameparser 。 它也試圖猜測名稱的大小寫。 抱歉回答不完整，但我沒有太多使用 python-nameparser 的經驗。

祝你好運！

Answer 3

試試這個代碼

def get_entities(self,args):
    qry = "who is Mahatma Gandhi"
    tokens = nltk.tokenize.word_tokenize(qry)
    pos = nltk.pos_tag(tokens)
    sentt = nltk.ne_chunk(pos, binary = False)
    print sentt
    person = []
    for subtree in sentt.subtrees(filter=lambda t: t.node == 'PERSON'):
        for leave in subtree.leaves():
            person.append(leave)
    print "person=", person

在 ne_chunk() 函數的幫助下，您可以獲取人員、組織和地點的名稱。 希望它有幫助。 謝謝

解析文本以獲取專有名詞（名稱和組織）-python nltk

問題描述

3 個解決方案

解決方案1
9 2013-10-21 12:57:58

解決方案2
2 已采納 2013-10-21 18:58:47

解決方案3
0 2013-10-24 06:53:35

解析文本以獲取專有名詞（名稱和組織）-python nltk

問題描述

3 個解決方案

解決方案1 9 2013-10-21 12:57:58

解決方案2 2 已采納 2013-10-21 18:58:47

解決方案3 0 2013-10-24 06:53:35

解決方案1
9 2013-10-21 12:57:58

解決方案2
2 已采納 2013-10-21 18:58:47

解決方案3
0 2013-10-24 06:53:35