[英]CRF++/Wapiti include category of entire sentence as feature
如何將Naive Bayes預測的句子類別表示為CRF ++或Wapiti的功能?
例如,如果句子是Tumblr merges with Yahoo.
,則Tumblr merges with Yahoo.
,分類為Business
,然后在編寫crf的培訓文件時,在哪里可以將標簽Business
作為要素? 模板應該如何建模?
火車文件應該是這樣嗎
Tumblr business ORG
merges business O
with business O
Yahoo business ORG
還是只在類別中加上ORG
標簽? 怎么會這樣? 和模板文件?
方法1:您可以按照所示的相同方式將business
添加為功能,也可以只寫1
代替business
。 同樣,對於類別sports
您可以添加另一列,並且對於屬於運動句子的單詞,該列的值應為1
。 您還必須分別在模板文件中添加每一列。
U42:%x[0,1] #for business
U43:%x[0,2] #for sports
方法2:在ORG中包含類別可能不是一個好主意,因為相同的ORG可以出現在不同的類別中。
據我所知,訓練文件是包括句子級別注釋的唯一方法,除非您考慮采用考慮句子級別功能的CRF。
如果您有足夠的訓練數據且類別數量有限,則此方法可能會影響句子類別的權重較低:僅當命名實體模棱兩可且計算出的NE類別概率接近時,才可用於區分命名實體。
最好的方法確實是使用/不使用此功能進行訓練,看看它是否可以改善NER! 應該是一個有趣的實驗:)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.