簡體   English   中英

用於主題檢測的推文之間的表示和良好的相似性度量

[英]Representation and a good similarity measure between Tweets for topic detection

我打算在Twitter上編寫一個主題檢測工具。 我一直在考慮兩個推文之間的良好相似性度量(距離),以及如何表示它們,計入:

  • #hashtags (我認為在Twitter上檢測主題時,主題標簽非常重要)
  • 回復(如果有人回復推文 ,那些推文可能會談論相同的主題,雖然有兩個人可以開始談論三星銀河並最終談論iphone越獄等)

我正在考慮實施到目前為止所做的工作並做一些實驗。 我將實現經典模型(如TF*IDF並使用歐幾里德距離角度余弦等),以及具有一些相似性度量( 漢明Jaccard等)的布爾模型。

有關如何使某些現有模型適應Twitter或關於如何創建新模型的一些想法的任何想法?

Twitter上的相似度量標准討論了有關不同相似性度量的一些細節,您可以將這些度量用於將來自twitter的數據聚集在一起。 我們根據用戶連接,用戶提及,地理位置,推文之間的內容相似性,用戶描述之間的內容相似性以及常見的#hashtags,對Twitter上的用戶進行了一些研究。

為了在twitter上查找常見主題,在討論主題的用戶之間找到聯系確實有幫助,我們發現用戶組傾向於討論共同主題。 這篇文章的后半部分有一些細節。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM