簡體   English   中英

如何使用CRFSuite為CRF模型准備訓練語料庫

[英]How to prepare training corpus for CRF model using CRFSuite

我需要以下格式的數據

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我只有txt文件,我需要此數據用於NER任務的CRF模型。 我打算將crf套件用於python,但無法完全理解如何標記訓練數據。 我可以pos-tag,但是如何添加命名實體,因為我需要使用2個自定義標簽來標記訓練數據。

如果要訓練CRF模型,則需要帶注釋的數據。 對於某些任務,可以依靠現有的語料庫,但是如果您的任務是新的,則必須自己注釋實體。 有一些工具可以提供幫助,例如,請訪問http://brat.nlplab.org/ GATE還具有內置的注釋工具。

POS標簽通常用作功能,但並非嚴格要求(您也應使用許多其他功能)。

如果您想使用不同的實體(而不只是Location實體或Person實體)創建自己的訓練數據,那么可以參考我的答案。 是否可以訓練斯坦福大學NER系統以識別更多命名實體類型?

Brat是注釋新數據集的絕佳方法。 注釋后,需要從Brat輸出的Standoff格式轉換為Stanford NER接受的格式。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM