NLTK提取chunker解析樹的術語

Question

John Edward Gray現在開始跑步，他知道自己很胖

她是聽由可怕的歌手 嫌那

我想從一個句子中提取有趣的術語。 我目前使用POS標記來識別每個實體的語法類型。 然后我將每個標記更新為一個計數器（名詞，動詞和形容詞的權重不同）。

我現在希望使用一個chunker。 我認為解析樹的葉節點包含所有有趣的單詞和短語 。 如何從chunker輸出中提取術語？

Answer 1

在語言學中，“有趣的詞”是稱為open class words 。 你所指的任務實際上並不是一個分塊/解析任務。 您正在尋找某種標記器/注釋器/貼標機來標記每個單詞以查看它是否“有趣”。

序列標記

如果你接近你的任務作為一個序列標簽任務，那么John Edward Grey started running now that he knows he is fat的句子John Edward Grey started running now that he knows he is fat將被標記為：

[('John','B'),('Edward','I'),('Grey','I'),('started','O'),('running','B'),
('now','O'),('that','O'),('he','O'),('knows','O'),('he','O'),
('is','O'),('fat','B')]

所以標記為B任何東西都意味着你的“有趣”塊的開頭
標記為O的后續單詞將是“有趣”塊的結尾或
它也可以最終得到一個后續的B來標記前一個“有趣”塊的結尾和一個新的“有趣”塊的開始。

有趣與否？

實際上有趣與否取決於你完成任務的最終目的是什么，對我而言，我會說started running是一個“有趣”的塊，因為它開始修改不定式意義或running以給它一個begin action模態。

封閉類與開放類單詞

如果您想到了什么是非有趣的單詞，那么我建議您構建一個字典，然后運行一個序列標記腳本來檢測那些不在密文字詞典中的字典。

機器學習方法

另一種方法是執行機器學習分類任務，其中您已經預先注釋了有趣和不有的樣本數據。 然后，您可以識別一些分類功能並運行分類，以使用B ， I ， O標記自動標記數據。

NLTK提取chunker解析樹的術語

問題描述

1 個解決方案

解決方案1
3 2013-02-03 08:54:06

NLTK提取chunker解析樹的術語

問題描述

1 個解決方案

解決方案1 3 2013-02-03 08:54:06

解決方案1
3 2013-02-03 08:54:06