如何使用CRFSuite為CRF模型准備訓練語料庫

Question

我需要以下格式的數據

(u'Melbourne', u'NP', u'B-LOC'),
 (u'(', u'Fpa', u'O'),
 (u'Australia', u'NP', u'B-LOC'),
 (u')', u'Fpt', u'O'),
 (u',', u'Fc', u'O'),

我只有txt文件，我需要此數據用於NER任務的CRF模型。 我打算將crf套件用於python，但無法完全理解如何標記訓練數據。 我可以pos-tag，但是如何添加命名實體，因為我需要使用2個自定義標簽來標記訓練數據。

Answer 1

如果要訓練CRF模型，則需要帶注釋的數據。 對於某些任務，可以依靠現有的語料庫，但是如果您的任務是新的，則必須自己注釋實體。 有一些工具可以提供幫助，例如，請訪問http://brat.nlplab.org/ 。 GATE還具有內置的注釋工具。

POS標簽通常用作功能，但並非嚴格要求（您也應使用許多其他功能）。

Answer 2

如果您想使用不同的實體（而不只是Location實體或Person實體）創建自己的訓練數據，那么可以參考我的答案。是否可以訓練斯坦福大學NER系統以識別更多命名實體類型？

Answer 3

Brat是注釋新數據集的絕佳方法。 注釋后，需要從Brat輸出的Standoff格式轉換為Stanford NER接受的格式。