[英]Using curl vs Python requests
在进行网站刮擦时,最好是:使用curl,还是使用Python的请求库?
我最初计划使用请求并明确指定用户代理。 但是,当我使用它时,我经常会收到“HTTP 429太多请求”错误,而使用curl时,似乎可以避免这种情况。
我需要更新10,000个标题的元数据信息,我需要一种方法来以并行方式提取每个标题的信息。
使用每种信息来提取信息的利弊是什么?
既然你要并行的要求,你应该使用requests
与grequests
(如果你使用GEVENT,或erequests
如果你使用eventlet)。 你可能不得不限制你访问网站的速度,因为他们可能会做一些速率限制并拒绝你在太短的时间内请求太多。
使用请求将允许您以编程方式执行,这将产生更清洁的产品。
如果你使用curl,你正在进行较慢的os.system调用。
我会在任何一天使用外部程序的语言版本,因为它不那么麻烦。
只有当事实证明不可行时,我才会回到这一点。 始终认为人们的时间比机器时间更有价值。 无论如何,此类应用程序中的任何“性能提升”都可能会被网络延迟所淹没。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.