推文抓取 - 如何衡量推文強度？

Question

我正在尋找一種方法來獲取有關 Twitter 上的某些主題標簽/關鍵字的“趨勢”信息。 假設我想測量主題標簽/關鍵字“Python”在推特上的發布頻率。 例如，今天，“Python”平均每 1 分鍾發布一次推文，但昨天它平均每 2 分鍾發布一次推文。

我嘗試了各種選項，但我總是擺脫 twitter API 限制，即如果我嘗試在最后一天（例如）下載主題標簽的所有推文，則只會下載一定比例的推文（通過 tweepy.cursor ）。

你有什么想法/腳本示例可以實現類似的結果嗎？ 圖書館或指南推薦？ 我在互聯網上搜索時沒有找到任何幫助。 謝謝你。

Answer 1

您應該檢查twint存儲庫。

可以獲取幾乎所有推文（Twitter API 僅限於最后 3200 條推文）；
快速初始設置；
可以匿名使用，無需 Twitter 注冊；

這是一個示例代碼：

import twint


def scrapeData(search):
    c = twint.Config()

    c.Search = search

    c.Since = '2021-03-05 00:00:00'
    c.Until = '2021-03-06 00:00:00'
    c.Pandas = True
    c.Store_csv = True
    c.Hide_output = True
    c.Output = f'{search}.csv'
    c.Limit = 10  # number of tweets want to fetch

    print(f"\n#### Scraping from {c.Since} to {c.Until}")
    twint.run.Search(c)

    print("\n#### Preview: ")
    print(twint.storage.panda.Tweets_df.head())


if __name__ == "__main__":
    scrapeData(search="python")

Answer 2

嘗試一個名為：GetOldTweets 或 GetOldTweets3 的庫

Twitter 搜索，以及其 API 的擴展，並不意味着是推文的詳盡來源。 Twitter 流媒體 API 對可以從與輸入參數匹配的推文中提取多遠的推文設置了一周的限制。 因此，為了提取與一組搜索參數相關的所有歷史推文進行分析，需要繞過 Twitter 官方 API 並使用模仿 Twitter 的自定義庫。

推文抓取 - 如何衡量推文強度？

問題描述

2 個解決方案

解決方案1
1 2021-03-06 13:00:47

解決方案2
0 2021-03-06 12:44:07

推文抓取 - 如何衡量推文強度？

問題描述

2 個解決方案

解決方案1 1 2021-03-06 13:00:47

解決方案2 0 2021-03-06 12:44:07

解決方案1
1 2021-03-06 13:00:47

解決方案2
0 2021-03-06 12:44:07