簡體   English   中英

從文本中提取協議特征

[英]Agreement feature extraction from a text

我正在完成一項任務,我必須在文本中提取名詞的協議功能......協議功能如:

number = singular, plural
person = first, second, third
gender = male, female, neuter
animacy = animate, inanimate

無論如何從文本中提取這些功能....

如果您的數據是英語,正如您的評論所示,那么名詞將永遠不會有人信息,因此我們可以打折。

正如其他人所提到的那樣,數字很容易:許多詞性標注符區分單數和復數名詞。

性別和動畫更有趣。 在英語中,這些是名詞的語義屬性而不是句法屬性。 例如,采取句子公主在塔中 我們知道, 公主是女性化和動畫,不是因為屈折信息,而是因為我們知道這個詞的含義。 建立一個本體論是可行的,通過獲取一個大的舊數據庫並分析其中的代詞和代詞。 您的算法會查找以下示例:

公主在鏡子里看着自己。

公主在塔里。 她很傷心。

它會以某種方式證明公主的先行者,並從代詞的已知屬性推斷出名詞的屬性。 當然,現在問題變成了參考分辨率,這不是微不足道的。 以下是最近愛丁堡大學關於該主題的講座課程的一些參考資料:

  • Denis,Pascal和Baldridge,Jason,2008年。“專業模型和重新分配共識”。 自然語言處理經驗方法會議論文集中 ACL,650-69。
  • Haghighi,Ari​​a和Klein,Dan,2010年。“以模塊化,以實體為中心的模型中的共識解決方案。” 人類語言技術:2010年計算語言學協會北美分會年會 洛杉磯加州,385-93。
  • Lappin,Shalom和Leass,Herbert,1994。“一種代詞回指解析算法”。 計算語言學 20:535-61。
  • Ng,Vincent,2010年。“監督名詞短語共同參與研究:前15年。” ACL '10:計算語言學協會第48次會議記錄。 1396-411。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM