簡體   English   中英

如何在CRF ++中使用目標標簽作為功能?

[英]How to use target label as feature in CRF++?

我想打造一個中國字segmentator作為本文 如果我理解正確,他們會在CRF ++中使用2標簽分割方法。 我的問題是,如何在該論文中將標簽過渡(例如T(-1)C(0)T(0))作為CRF ++中的功能模板? 例如,對於這樣的訓練數據:

共B

同M

創B

造M

美B <-當前單詞

好M

的B

新B

世B

紀M

在CRF ++中是否可以具有特征T(-1)C(0)T(0)-> M /美/ B? 我嘗試添加諸如U01之類的臨時屬性:%x [-1,1] /%x [0,0] /%x [0,1],但是失敗了。 我還感到困惑,因為B / I標簽是我們要在測試數據中添加的標簽(例如,原始中文句子),為什么可以將其用作本文的特征? 還是我誤會了什么?

CRF ++中的T(-1)C(0)T(0)-> M /美/ B之類的功能可以表示為:

B01:%x [0,0]

注意區別。 B,不是U

如果使用U01:%x [0,0],則表示“美/ B”之類的功能。

6年前我第一次使用CRF ++時,這也讓我有些困惑。 希望這可以幫到你。


我應該提到,在CRF中,功能的描述將包括標簽。 我的意思是,以下是0-1功能: 當前字符為“美”,當前標簽為“ B”

CRF ++(由CRF實現的工具)中的“模板”的作用是枚舉給定模板中定義的上下文的所有標簽。

因此,在您的示例中,U01:%x [0,0]自動引入了2個功能:“ U01:美_y = B”和“ U01:美_y = M”

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM