繁体   English   中英

随机抽样 Github 存储库

[英]Randomly sample Github repositories

我正在寻找一种从 Github 随机抽样 repos 的解决方案。 最终的结果是对样本进行一些数据分析。

我想做的是通过存储库的 id 进行采样:采样一个介于 0 到 270 万之间的 int 并找到相关的存储库。 获得用户名/存储库名称后,我将使用 api 获取详细信息。

问题是我不知道如何通过 repo id 进行搜索。 有什么建议么? 我对网页抓取或 Python 解决方案持开放态度。

您可以使用 python 访问 GitHUb V3 Api(如“ 最适合 Github API v3 的 Python 库”)。

并且您可以访问 GitHub GET /repositories ,从某个 ID( GET /repositories ,作为参数,您所看到的最后一个存储库的整数 ID:这样可以提供一种迂回的方式来访问带有其 ID 的存储库。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM