![](/img/trans.png)
[英]How to use word embedding as features for CRF (sklearn-crfsuite) model training
[英]How to prepare training corpus for CRF model using CRFSuite
我需要以下格式的數據
(u'Melbourne', u'NP', u'B-LOC'),
(u'(', u'Fpa', u'O'),
(u'Australia', u'NP', u'B-LOC'),
(u')', u'Fpt', u'O'),
(u',', u'Fc', u'O'),
我只有txt文件,我需要此數據用於NER任務的CRF模型。 我打算將crf套件用於python,但無法完全理解如何標記訓練數據。 我可以pos-tag,但是如何添加命名實體,因為我需要使用2個自定義標簽來標記訓練數據。
如果要訓練CRF模型,則需要帶注釋的數據。 對於某些任務,可以依靠現有的語料庫,但是如果您的任務是新的,則必須自己注釋實體。 有一些工具可以提供幫助,例如,請訪問http://brat.nlplab.org/ 。 GATE還具有內置的注釋工具。
POS標簽通常用作功能,但並非嚴格要求(您也應使用許多其他功能)。
如果您想使用不同的實體(而不只是Location
實體或Person
實體)創建自己的訓練數據,那么可以參考我的答案。 是否可以訓練斯坦福大學NER系統以識別更多命名實體類型?
Brat是注釋新數據集的絕佳方法。 注釋后,需要從Brat輸出的Standoff格式轉換為Stanford NER接受的格式。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.