繁体   English   中英

如何在 Python 中使用 VPN 进行网络抓取?

[英]How to webscrape with VPN in Python?

我制作了一个 Python 程序,它使用 Beautifulsoup 抓取 IMDB 以制作一个 mySQL 数据库,其中包含不同类别中所有评分最高的电影的表格。 到现在为止还挺好。 我的问题是我是在挪威做这件事的,而且许多电影片名都被翻译成挪威语。 例如,在从挪威 IP 地址打开的 IMDB 顶部列表中,“The Shawshank Redemption”被翻译为“Frihetens Regn”。 我想要所有英文标题。 是否有一些免费的 VPN 可以从 Python 激活并与 Beautifulsoup 配合使用? 或者有人对此有其他解决方案吗?

您有几个选项,VPN 和代理。

首先,是的,您可以使用 VPN。 然而,大多数 VPN 需要整个主机连接通过 VPN 建立隧道。 那里有一些不错的 VPN 服务,但有时一分钱一分货。 我会谨慎使用免费 VPN,因为有些人出售您的网络,而另一些人则出售您的数据。

其次,这可能是最简单的选择。 使用代理。 您可以通过免费的匿名代理告诉您的抓取工具代理流量。 您可以从 Google 找到这些免费代理的列表。 或者您可以查看ProxyBroker ,它会为您找到免费代理。 这仅需要通过美国 IP 地址而不是您的整个主机连接来代理抓取器流量。

我同意使用代理比使用 vpn 效果更好。

但是,如果您想要结果,请不要使用免费代理。 如果这是您可以投资的东西,请找一个体面的付费提供商,否则很可能不会有任何好处,因为您会经常被阻止。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM