繁体 English 中英

使用python的动态网页爬虫

[英]dynamic web page crawler using python

原文 2020-08-31 22:22:19 3 1 python/ selenium/ web-crawler/ dynamic-pages

我想在线阅读这篇文章，突然出现了一些东西，我想在我成功提取它后我想离线阅读它......所以我经过 4 周的试用，所有问题都归结为我的爬虫可以即使在所有的骚动之后，似乎也没有阅读网页的内容......

最初的问题是所有信息都没有出现在一个页面上，所以使用按钮来导航网站本身的内容......

我试过 BeautifulSoup，但它似乎不能很好地解析页面。 我目前正在使用 selenium 和 chromedriver。

爬虫无法读取页面的原因似乎是robot.txt文件（爬虫单页等待时间3600，文章10页左右，可以忍受，但是如果这样会怎么样？说 100+），我不知道如何绕过它或绕过它。

有什么帮助吗？？

如果 robots.txt 设置了限制，那么就到此为止。 您应该合乎道德地进行网络抓取，这意味着如果网站所有者希望您在请求之间等待 3600 秒，那么就这样吧。

即使 robots.txt 没有规定等待时间，您仍然应该注意。 小型企业/网站所有者可能不知道这一点，如果您不断地敲打网站，他们可能会付出高昂的代价。

[英]How to Build a Dynamic Web Scraper/Crawler: Python

[英]python web crawler cannot get full page

[英]Using my Python Web Crawler in my site

[英]Writing a web crawler using python twisted

[英]Stuck Coding a Python web crawler using BeautifulSoup

[英]Href extraction by Web crawler using Python

[英]Using a python web crawler to scrape twitter accounts

[英]Web crawler page iteration

[英]Parsing a Dynamic Web Page using Python

[英]Dynamic web page scraping using python

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何构建动态 Web 爬虫/爬虫：Python python网络爬虫无法获取完整页面在我的网站中使用我的Python Web爬网程序使用python twisted写一个web爬虫使用BeautifulSoup卡住了Python网络爬虫的代码 Web搜寻器使用Python提取Href 使用 python 网络爬虫抓取 Twitter 帐户 Web爬虫页面迭代使用Python解析动态网页使用python进行动态网页抓取

相关标签