簡體   English   中英

制作斯坦福大學Ner CRF培訓數據的約定

[英]Conventions for making Stanford Ner CRF Training data

我必須制作一個基於NER CRF的良好模型。 我針對的是一個廣闊的領域,我針對的類總數不超過17個。我還制作了一套很好的功能集(austen.prop),這些功能集應該通過大量實驗對我有用。 NER效果不佳。 我需要知道NER的局限性,它是在訓練數據大小等方面基於CRF的。

我進行了很多搜索,但是直到現在我仍無法找到制定訓練數據時應遵循的慣例。

(注意:我完全知道如何制作模型並使用它,我只需要知道是否存在任何約定,即每個目標類應存在一定比例等等)。

如果有人可以指導我,我將感謝您。

對於英語,標准的培訓數據集是CoNLL 2003,它具有大約15,000個帶標記的句子,適用於4個班級(ORG,PERSON,LOCATION,MISC)。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM