[英]NLTK extracting terms of chunker parse tree
John Edward Gray現在開始跑步 ,他知道自己很胖
她是聽由可怕的歌手 嫌那
我想從一個句子中提取有趣的術語。 我目前使用POS標記來識別每個實體的語法類型。 然后我將每個標記更新為一個計數器(名詞,動詞和形容詞的權重不同)。
我現在希望使用一個chunker。 我認為解析樹的葉節點包含所有有趣的單詞和短語 。 如何從chunker輸出中提取術語?
在語言學中,“有趣的詞”是稱為open class words
。 你所指的任務實際上並不是一個分塊/解析任務。 您正在尋找某種標記器/注釋器/貼標機來標記每個單詞以查看它是否“有趣”。
序列標記
如果你接近你的任務作為一個序列標簽任務,那么John Edward Grey started running now that he knows he is fat
的句子John Edward Grey started running now that he knows he is fat
將被標記為:
[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]
所以標記為B
任何東西都意味着你的“有趣”塊的開頭
標記為O
的后續單詞將是“有趣”塊的結尾或
它也可以最終得到一個后續的B
來標記前一個“有趣”塊的結尾和一個新的“有趣”塊的開始。
有趣與否?
實際上有趣與否取決於你完成任務的最終目的是什么,對我而言,我會說started running
是一個“有趣”的塊,因為它開始修改不定式意義或running
以給它一個begin action
模態。
封閉類與開放類單詞
如果您想到了什么是非有趣的單詞,那么我建議您構建一個字典,然后運行一個序列標記腳本來檢測那些不在密文字詞典中的字典。
機器學習方法
另一種方法是執行機器學習分類任務,其中您已經預先注釋了有趣和不有的樣本數據。 然后,您可以識別一些分類功能並運行分類,以使用B
, I
, O
標記自動標記數據。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.