[英]What's the proper Machine Learning algorithm for this task?
我們知道實體具有不同的外觀,例如,“巴拉克·奧巴馬”可以表示為“奧巴馬”,“總統”和“巴拉克·侯賽因·奧巴馬”。
是否有任何算法可以確定這三個對象是否指向同一實體“巴拉克·奧巴馬”?
謝謝!
編輯1:
我將提供有關我的案件的更多詳細信息。 我要做的是在Twitter中連接不同的實體名稱。
如果我發送包含“巴拉克·奧巴馬”的推文,一段時間后,我發送另一條包含“總統”但不包含“巴拉克·奧巴馬”的推文,則我的系統應該能夠將這兩個推文連接在一起,因為當我談論“巴拉克·奧巴馬”時,在兩條推文中,“”和“總統”顯然是指同一實體。
潛在語義分析是您可能希望嘗試的一種方法。
另外,主題模型的非參數擴展(例如潛在Dirichlet分配)可能會起作用。
問題的難度完全包含在“顯然是同一實體”一句中,並且您面臨着眾所周知的(也是非常困難的) 框架問題 。 如果將其轉換為概率,您會發現與奧巴馬有關的總統概率很大程度上取決於具體情況。
我建議看一下隱馬爾可夫鏈 (就像Google一樣),以捕獲問題的上下文性質。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.