簡體   English   中英

twitter的熱門話題算法如何決定從推文中提取哪些詞?

[英]How does twitter's trending topics algorithm decide which words to extract from tweets?

我看到了這個問題 ,主要關注“布蘭妮斯皮爾斯”問題。 但我有一個不同的問題。 算法如何確定需要對哪些單詞或短語進行排名? 例如,如果我發出一條說“邁克爾傑克遜去世”的推文,它怎么知道拔出“邁克爾傑克遜”而不是“死”?

或者假設Alec Baldwin和Steven Baldwin當天都在新聞中,因此在很多推文中都提到過。 怎么知道以不同的方式處理這兩個名字而不僅僅是拉出“鮑德溫”?

天真地做,我可以看到這個問題是NP完全的(你必須將推文中的所有潛在短語與其他人的推文中的所有潛在短語進行比較)。

該問題的一般解決方案是“術語頻率,逆文檔頻率”(tf-idf)

這是一種統計方法,可以找到比其他詞更相關的詞/術語,因為它們不常見。 在這種情況下,與普通英語單詞“death”相比,名稱“Michael Jackson”的頻率可能非常低。

至於Alec Baldwin和Steven Baldwin--這些將在詞性標注期間被識別為單獨的 - 它們將被標記為單獨的專有名詞。

我相信它會尋找常見的詞匯。 此外,他們似乎正在引用http://www.whatthetrend.com/

除此之外,也可能涉及輕微的人為控制。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM