簡體   English   中英

隨機抽樣 Github 存儲庫

[英]Randomly sample Github repositories

我正在尋找一種從 Github 隨機抽樣 repos 的解決方案。 最終的結果是對樣本進行一些數據分析。

我想做的是通過存儲庫的 id 進行采樣:采樣一個介於 0 到 270 萬之間的 int 並找到相關的存儲庫。 獲得用戶名/存儲庫名稱后,我將使用 api 獲取詳細信息。

問題是我不知道如何通過 repo id 進行搜索。 有什么建議么? 我對網頁抓取或 Python 解決方案持開放態度。

您可以使用 python 訪問 GitHUb V3 Api(如“ 最適合 Github API v3 的 Python 庫”)。

並且您可以訪問 GitHub GET /repositories ,從某個 ID( GET /repositories ,作為參數,您所看到的最后一個存儲庫的整數 ID:這樣可以提供一種迂回的方式來訪問帶有其 ID 的存儲庫。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM