簡體   English   中英

CRF ++ / Wapiti包括整個句子的類別作為特征

[英]CRF++/Wapiti include category of entire sentence as feature

如何將Naive Bayes預測的句子類別表示為CRF ++或Wapiti的功能?

例如,如果句子是Tumblr merges with Yahoo. ,則Tumblr merges with Yahoo. ,分類為Business ,然后在編寫crf的培訓文件時,在哪里可以將標簽Business作為要素? 模板應該如何建模?

火車文件應該是這樣嗎

Tumblr    business    ORG
merges    business    O
with     business    O
Yahoo    business    ORG

還是只在類別中加上ORG標簽? 怎么會這樣? 和模板文件?

方法1:您可以按照所示的相同方式將business添加為功能,也可以只寫1代替business 同樣,對於類別sports您可以添加另一列,並且對於屬於運動句子的單詞,該列的值應為1 您還必須分別在模板文件中添加每一列。

U42:%x[0,1] #for business
U43:%x[0,2] #for sports

方法2:在ORG中包含類別可能不是一個好主意,因為相同的ORG可以出現在不同的類別中。

據我所知,訓練文件是包括句子級別注釋的唯一方法,除非您考慮采用考慮句子級別功能的CRF。

如果您有足夠的訓練數據且類別數量有限,則此方法可能會影響句子類別的權重較低:僅當命名實體模棱兩可且計算出的NE類別概率接近時,才可用於區分命名實體。

最好的方法確實是使用/不使用此功能進行訓練,看看它是否可以改善NER! 應該是一個有趣的實驗:)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM