簡體   English   中英

使用類別列表的Learnig NER

[英]Learnig NER using category list

在培訓CRF ++的模板中,如何為上市公司添加自定義dictionary.txt文件,為歐洲流行食品提供另一個(例如,或幾乎任何類別)。

然后為每個類別提供樣本訓練數據,從而了解如何在該類別的上下文中使用這些特定的命名實體。
這樣,我和系統都可以確保它正確地理解了文本中某些命名實體的結構(無論是推文還是普利策獲獎新聞文章),而不是提供了數百兆字節的數據。

這會很酷。 模型將具有一個已知實體的確定詞典(不需要擴展)和一種統計方法,用於在人類文本中構造這些已知實體。

PS-只是為了清楚起見,而不是渴望正則表達式。 只有在詞典中包含很多內容,很多規則和很多無聊時間的情況下,這些才是很酷的。

我認為您正在談論的是地名詞典列表(dictionary.txt)。

您必須在訓練數據中包含單詞的相應功能,然后在模板文件中指定該單詞。

例如:您的列表包含以下實體: Hershey's而培訓數據中有一句話: I like Hershey's chocolates.

因此,當您以CoNLL格式(對於CRF ++)排列數據時,您可以添加一列(其值應為0或1,指示字典中存在該單詞),除賀爾希氏之外,所有單詞的值均為0。 您還必須將此列作為功能包含在模板文件中。

為了更好地了解使用CRF ++的模板文件和NER培訓,您可以觀看以下視頻並提出疑問:)

1) https://youtu.be/GJHeTvDkIaE

2) https://youtu.be/Ur5umC4BwN4

編輯:(查看OP的評論后)

具有額外功能的示例訓練數據: https : //pastebin.com/fBgu8c67我添加了3個功能。 IsCountry功能值(1或0)可以從國家的IsCountry報列表中獲取。 其他2個功能可以離線計算。 請注意,標頭僅在文件中添加,僅供參考,不應包含在訓練數據文件中。

上述數據的樣本模板文件: https : //pastebin.com/LPvAGCVL

請注意,測試數據還應與培訓數據采用相同的格式,並具有相同的功能/相同的列數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM