簡體 English 中英

使用python的動態網頁爬蟲

[英]dynamic web page crawler using python

原文 2020-08-31 22:22:19 1 1 python/ selenium/ web-crawler/ dynamic-pages

我想在線閱讀這篇文章，突然出現了一些東西，我想在我成功提取它后我想離線閱讀它......所以我經過 4 周的試用，所有問題都歸結為我的爬蟲可以即使在所有的騷動之后，似乎也沒有閱讀網頁的內容......

最初的問題是所有信息都沒有出現在一個頁面上，所以使用按鈕來導航網站本身的內容......

我試過 BeautifulSoup，但它似乎不能很好地解析頁面。 我目前正在使用 selenium 和 chromedriver。

爬蟲無法讀取頁面的原因似乎是robot.txt文件（爬蟲單頁等待時間3600，文章10頁左右，可以忍受，但是如果這樣會怎么樣？說 100+），我不知道如何繞過它或繞過它。

有什么幫助嗎？？

如果 robots.txt 設置了限制，那么就到此為止。 您應該合乎道德地進行網絡抓取，這意味着如果網站所有者希望您在請求之間等待 3600 秒，那么就這樣吧。

即使 robots.txt 沒有規定等待時間，您仍然應該注意。 小型企業/網站所有者可能不知道這一點，如果您不斷地敲打網站，他們可能會付出高昂的代價。

[英]How to Build a Dynamic Web Scraper/Crawler: Python

[英]python web crawler cannot get full page

[英]Using my Python Web Crawler in my site

[英]Writing a web crawler using python twisted

[英]Stuck Coding a Python web crawler using BeautifulSoup

[英]Href extraction by Web crawler using Python

[英]Using a python web crawler to scrape twitter accounts

[英]Web crawler page iteration

[英]Parsing a Dynamic Web Page using Python

[英]Dynamic web page scraping using python

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何構建動態 Web 爬蟲/爬蟲：Python python網絡爬蟲無法獲取完整頁面在我的網站中使用我的Python Web爬網程序使用python twisted寫一個web爬蟲使用BeautifulSoup卡住了Python網絡爬蟲的代碼 Web搜尋器使用Python提取Href 使用 python 網絡爬蟲抓取 Twitter 帳戶 Web爬蟲頁面迭代使用Python解析動態網頁使用python進行動態網頁抓取

相關標簽