簡體   English   中英

推文抓取 - 如何衡量推文強度?

[英]Tweets scraping - how to measure tweeting intensity?

我正在尋找一種方法來獲取有關 Twitter 上的某些主題標簽/關鍵字的“趨勢”信息。 假設我想測量主題標簽/關鍵字“Python”在推特上的發布頻率。 例如,今天,“Python”平均每 1 分鍾發布一次推文,但昨天它平均每 2 分鍾發布一次推文。

我嘗試了各種選項,但我總是擺脫 twitter API 限制,即如果我嘗試在最后一天(例如)下載主題標簽的所有推文,則只會下載一定比例的推文(通過 tweepy.cursor )。

你有什么想法/腳本示例可以實現類似的結果嗎? 圖書館或指南推薦? 我在互聯網上搜索時沒有找到任何幫助。 謝謝你。

您應該檢查twint存儲庫。

  • 可以獲取幾乎所有推文(Twitter API 僅限於最后 3200 條推文);
  • 快速初始設置;
  • 可以匿名使用,無需 Twitter 注冊;

這是一個示例代碼:

import twint


def scrapeData(search):
    c = twint.Config()

    c.Search = search

    c.Since = '2021-03-05 00:00:00'
    c.Until = '2021-03-06 00:00:00'
    c.Pandas = True
    c.Store_csv = True
    c.Hide_output = True
    c.Output = f'{search}.csv'
    c.Limit = 10  # number of tweets want to fetch

    print(f"\n#### Scraping from {c.Since} to {c.Until}")
    twint.run.Search(c)

    print("\n#### Preview: ")
    print(twint.storage.panda.Tweets_df.head())


if __name__ == "__main__":
    scrapeData(search="python")

嘗試一個名為:GetOldTweets 或 GetOldTweets3 的庫

Twitter 搜索,以及其 API 的擴展,並不意味着是推文的詳盡來源。 Twitter 流媒體 API 對可以從與輸入參數匹配的推文中提取多遠的推文設置了一周的限制。 因此,為了提取與一組搜索參數相關的所有歷史推文進行分析,需要繞過 Twitter 官方 API 並使用模仿 Twitter 的自定義庫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM