簡體   English   中英

什么是適合此任務的機器學習算法?

[英]What's the proper Machine Learning algorithm for this task?

我們知道實體具有不同的外觀,例如,“巴拉克·奧巴馬”可以表示為“奧巴馬”,“總統”和“巴拉克·侯賽因·奧巴馬”。
是否有任何算法可以確定這三個對象是否指向同一實體“巴拉克·奧巴馬”?

謝謝!


編輯1:
我將提供有關我的案件的更多詳細信息。 我要做的是在Twitter中連接不同的實體名稱。

如果我發送包含“巴拉克·奧巴馬”的推文,一段時間后,我發送另一條包含“總統”但不包含“巴拉克·奧巴馬”的推文,則我的系統應該能夠將這兩個推文連接在一起,因為當我談論“巴拉克·奧巴馬”時,在兩條推文中,“”和“總統”顯然是指同一實體。

潛在語義分析是您可能希望嘗試的一種方法。

另外,主題模型的非參數擴展(例如潛在Dirichlet分配)可能會起作用。

問題的難度完全包含在“顯然是同一實體”一句中,並且您面臨着眾所周知的(也是非常困難的) 框架問題 如果將其轉換為概率,您會發現與奧巴馬有關的總統概率很大程度上取決於具體情況。

我建議看一下隱馬爾可夫鏈 (就像Google一樣),以捕獲問題的上下文性質。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM