[英]Representation and a good similarity measure between Tweets for topic detection
我打算在Twitter上編寫一個主題檢測工具。 我一直在考慮兩個推文之間的良好相似性度量(距離),以及如何表示它們,計入:
#hashtags
(我認為在Twitter上檢測主題時,主題標簽非常重要) 我正在考慮實施到目前為止所做的工作並做一些實驗。 我將實現經典模型(如TF*IDF
並使用歐幾里德距離 , 角度余弦等),以及具有一些相似性度量( 漢明 , Jaccard等)的布爾模型。
有關如何使某些現有模型適應Twitter或關於如何創建新模型的一些想法的任何想法?
Twitter上的相似度量標准討論了有關不同相似性度量的一些細節,您可以將這些度量用於將來自twitter的數據聚集在一起。 我們根據用戶連接,用戶提及,地理位置,推文之間的內容相似性,用戶描述之間的內容相似性以及常見的#hashtags,對Twitter上的用戶進行了一些研究。
為了在twitter上查找常見主題,在討論主題的用戶之間找到聯系確實有幫助,我們發現用戶組傾向於討論共同主題。 這篇文章的后半部分有一些細節。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.