CRF ++模板文件和句子語法

Question

我正在嘗試使用CRF ++將產品字符串解析為各種屬性類，以便執行與該問題類似的產品匹配。

然而，我遇到的一個問題是，當在培訓文件中尚未看到產品字符串中單詞的順序時，CRF不能准確預測標簽。

例如，我只是使用一個詞袋模板文件：

#Unigrams
U00:%x[-1,0]
U00:%x[0,0]
U00:%x[1,0]

#Bigrams
B

然后運行crf_learn其中包括以下示例訓練數據：

panasonic  NOUN  B-BRAND
digital  ADJ  B-PRODUCT
monitor  NOUN  I-PRODUCT
17  #  B-SIZE
inch  #  I-SIZE

使用此訓練數據時，該模型將正確的測試字符串“ 17英寸數字數字監視器”解析為正確的輸出標簽。 但是，當我在諸如“ panasonic monitor digital 17 inch”之類的字符串上使用該模型時，該模型無法識別正確的標簽，而是將“ digital”和“ monitor”的標簽更改為如下所示：

panasonic  NOUN  B-BRAND
monitor  NOUN  B-PRODUCT
digital  ADJ  I-PRODUCT
17  #  B-SIZE
inch  #  I-SIZE

但是，我需要以下內容：

panasonic  NOUN  B-BRAND
monitor  NOUN  I-PRODUCT
digital  ADJ  B-PRODUCT
17  #  B-SIZE
inch  #  I-SIZE

這是我的模板文件存在問題，還是CRF本質上受語法限制？ 還是可以以某種方式修改模板文件或訓練數據列以捕獲/忽略產品字符串中單詞的順序？

Answer 1

首先，模板文件中的功能定義錯誤。

所有功能模板均標識為U00 。 這意味着本質上只有1個功能，而沒有3個。

其次，我認為您應該嘗試更多功能模板，例如：

#context of 3 words
U00:%x[-1,0]
U01:%x[0,0]
U02:%x[1,0]

#for POS Tag
U03:%x[0,1]

希望這有助於提高性能：)

PS：您可以訪問https://youtu.be/GJHeTvDkIaE了解CRF ++模板文件。

CRF ++模板文件和句子語法

問題描述

1 個解決方案

解決方案1
0 2017-05-08 17:33:51

CRF ++模板文件和句子語法

問題描述

1 個解決方案

解決方案1 0 2017-05-08 17:33:51

解決方案1
0 2017-05-08 17:33:51