簡體   English   中英

NLTK提取chunker解析樹的術語

[英]NLTK extracting terms of chunker parse tree

John Edward Gray現在開始跑步 ,他知道自己很胖

可怕的歌手 嫌那

我想從一個句子中提取有趣的術語。 我目前使用POS標記來識別每個實體的語法類型。 然后我將每個標記更新為一個計數器(名詞,動詞和形容詞的權重不同)。

我現在希望使用一個chunker。 我認為解析樹葉節點包含所有有趣的單詞和短語 如何從chunker輸出中提取術語?

在語言學中,“有趣的詞”是稱為open class words 你所指的任務實際上並不是一個分塊/解析任務。 您正在尋找某種標記器/注釋器/貼標機來標記每個單詞以查看它是否“有趣”。

序列標記

如果你接近你的任務作為一個序列標簽任務,那么John Edward Grey started running now that he knows he is fat的句子John Edward Grey started running now that he knows he is fat將被標記為:

[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
  • 所以標記為B任何東西都意味着你的“有趣”塊的開頭

  • 標記為O的后續單詞將是“有趣”塊的結尾或

  • 它也可以最終得到一個后續的B來標記前一個“有趣”塊的結尾和一個新的“有趣”塊的開始。

有趣與否?

實際上有趣與否取決於你完成任務的最終目的是什么,對我而言,我會說started running是一個“有趣”的塊,因為它開始修改不定式意義或running以給它一個begin action模態。

封閉類與開放類單詞

如果您想到了什么是非有趣的單詞,那么我建議您構建一個字典,然后運行一個序列標記腳本來檢測那些不在密文字詞典中的字典。

機器學習方法

另一種方法是執行機器學習分類任務,其中您已經預先注釋了有趣和不有的樣本數據。 然后,您可以識別一些分類功能並運行分類,以使用BIO標記自動標記數據。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM