![](/img/trans.png)
[英]How to use word embedding as features for CRF (sklearn-crfsuite) model training
[英]How does sklearn-crfsuite handle strings?
我一直在關注sklearn-crfsuite
教程。
用於訓練 CRF model 的特征示例如下所示。
{'+1:postag': 'Fpa',
'+1:postag[:2]': 'Fp',
'+1:word.istitle()': False,
'+1:word.isupper()': False,
'+1:word.lower()': '(',
'BOS': True,
'bias': 1.0,
'postag': 'NP',
'postag[:2]': 'NP',
'word.isdigit()': False,
'word.istitle()': True,
'word.isupper()': False,
'word.lower()': 'melbourne',
'word[-2:]': 'ne',
'word[-3:]': 'rne'}
sklearn-crfsuite
如何將melbourne
等字符串轉換為浮點數,因為 CRF 的特征應該只是浮點數。 文檔中的任何地方都沒有提到這一點。
sklearn-crf 功能采用 python-crfsuite 格式。 每個字符串都被視為鍵:
* {"string_key": "string_value", ...} dict; that's the same as
{"string_key=string_value": 1.0, ...}
* ["string_key1", "string_key2", ...] list; that's the same as
{"string_key1": 1.0, "string_key2": 1.0, ...}
你可以在這里找到更多: https://github.com/scrapinghub/python-crfsuite/blob/master/pycrfsuite/_pycrfsuite.pyx
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.