簡體 English 中英

用於主題檢測的推文之間的表示和良好的相似性度量

[英]Representation and a good similarity measure between Tweets for topic detection

原文 2013-02-06 10:06:49 0 1 twitter/ machine-learning/ cluster-analysis/ information-retrieval/ topic-modeling

我打算在Twitter上編寫一個主題檢測工具。 我一直在考慮兩個推文之間的良好相似性度量（距離），以及如何表示它們，計入：

#hashtags （我認為在Twitter上檢測主題時，主題標簽非常重要）
回復（如果有人回復推文，那些推文可能會談論相同的主題，雖然有兩個人可以開始談論三星銀河並最終談論iphone越獄等）

我正在考慮實施到目前為止所做的工作並做一些實驗。 我將實現經典模型（如TF*IDF並使用歐幾里德距離 ， 角度余弦等），以及具有一些相似性度量（漢明， Jaccard等）的布爾模型。

有關如何使某些現有模型適應Twitter或關於如何創建新模型的一些想法的任何想法？

1 個解決方案

Twitter上的相似度量標准討論了有關不同相似性度量的一些細節，您可以將這些度量用於將來自twitter的數據聚集在一起。 我們根據用戶連接，用戶提及，地理位置，推文之間的內容相似性，用戶描述之間的內容相似性以及常見的#hashtags，對Twitter上的用戶進行了一些研究。

為了在twitter上查找常見主題，在討論主題的用戶之間找到聯系確實有幫助，我們發現用戶組傾向於討論共同主題。 這篇文章的后半部分有一些細節。

測量短文本（如推文）之間的相似性

[英]Measuring similarity between short texts such as tweets

刪除部分相似的推文

[英]removing tweets with partial similarity

衡量話題在Twitter上的熱點

[英]Measure how hot a topic is on Twitter

從推文中刪除常見的垃圾郵件以進行主題建模

[英]Removing common junks from tweets for topic modeling

推文抓取 - 如何衡量推文強度？

[英]Tweets scraping - how to measure tweeting intensity?

推文之間的Jaccard距離

[英]Jaccard distance between tweets

推文線程化有什么好的啟發式方法？

[英]What's a good set of heuristics for threading tweets?

是否可以使用 Twitter API 獲取主題中最受歡迎的推文？

[英]Is it possible to get the most popular tweets in a topic using the Twitter API?

顯示兩個日期之間的推文

[英]Display tweets between two dates

是否有任何好的 JQuery twitter 小部件可以循環推文？

[英]Are there any good JQuery twitter widgets which loop over tweets?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 測量短文本（如推文）之間的相似性刪除部分相似的推文衡量話題在Twitter上的熱點從推文中刪除常見的垃圾郵件以進行主題建模推文抓取 - 如何衡量推文強度？推文之間的Jaccard距離推文線程化有什么好的啟發式方法？是否可以使用 Twitter API 獲取主題中最受歡迎的推文？顯示兩個日期之間的推文是否有任何好的 JQuery twitter 小部件可以循環推文？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM