[英]Agreement feature extraction from a text
我正在完成一項任務,我必須在文本中提取名詞的協議功能......協議功能如:
number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate
無論如何從文本中提取這些功能....
如果您的數據是英語,正如您的評論所示,那么名詞將永遠不會有人信息,因此我們可以打折。
正如其他人所提到的那樣,數字很容易:許多詞性標注符區分單數和復數名詞。
性別和動畫更有趣。 在英語中,這些是名詞的語義屬性而不是句法屬性。 例如,采取句子公主在塔中 。 我們知道, 公主是女性化和動畫,不是因為屈折信息,而是因為我們知道這個詞的含義。 建立一個本體論是可行的,通過獲取一個大的舊數據庫並分析其中的代詞和代詞。 您的算法會查找以下示例:
公主在鏡子里看着自己。
公主在塔里。 她很傷心。
它會以某種方式證明公主是她和她的先行者,並從代詞的已知屬性推斷出名詞的屬性。 當然,現在問題變成了參考分辨率,這不是微不足道的。 以下是最近愛丁堡大學關於該主題的講座課程的一些參考資料:
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.