[英]CRF++ Template File and Sentence Syntax
我正在嘗試使用CRF ++將產品字符串解析為各種屬性類,以便執行與該問題類似的產品匹配。
然而,我遇到的一個問題是,當在培訓文件中尚未看到產品字符串中單詞的順序時,CRF不能准確預測標簽。
例如,我只是使用一個詞袋模板文件:
#Unigrams
U00:%x[-1,0]
U00:%x[0,0]
U00:%x[1,0]
#Bigrams
B
然后運行crf_learn
其中包括以下示例訓練數據:
panasonic NOUN B-BRAND
digital ADJ B-PRODUCT
monitor NOUN I-PRODUCT
17 # B-SIZE
inch # I-SIZE
使用此訓練數據時,該模型將正確的測試字符串“ 17英寸數字數字監視器”解析為正確的輸出標簽。 但是,當我在諸如“ panasonic monitor digital 17 inch”之類的字符串上使用該模型時,該模型無法識別正確的標簽,而是將“ digital”和“ monitor”的標簽更改為如下所示:
panasonic NOUN B-BRAND
monitor NOUN B-PRODUCT
digital ADJ I-PRODUCT
17 # B-SIZE
inch # I-SIZE
但是,我需要以下內容:
panasonic NOUN B-BRAND
monitor NOUN I-PRODUCT
digital ADJ B-PRODUCT
17 # B-SIZE
inch # I-SIZE
這是我的模板文件存在問題,還是CRF本質上受語法限制? 還是可以以某種方式修改模板文件或訓練數據列以捕獲/忽略產品字符串中單詞的順序?
首先,模板文件中的功能定義錯誤。
所有功能模板均標識為U00
。 這意味着本質上只有1個功能,而沒有3個。
其次,我認為您應該嘗試更多功能模板,例如:
#context of 3 words
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]
#for POS Tag
U03:%x[0,1]
希望這有助於提高性能:)
PS:您可以訪問https://youtu.be/GJHeTvDkIaE了解CRF ++模板文件。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.