簡體   English   中英

如何使用BeautifulSoup遍歷網站的每個頁面以進行網頁抓取

[英]How to loop through each page of website for web scraping with BeautifulSoup

我正在使用BeautifulSoup從網站抓取職位發布數據。 我有滿足我需要的工作代碼,但它只會刮取職位發布的第一頁。 我在弄清楚如何迭代更新URL以刮擦每個頁面時遇到了麻煩。 我是Python的新手,曾經研究過幾種解決類似問題的方法,但是還沒有弄清楚如何將其應用於我的特定網址。 我認為我需要迭代更新URL或以某種方式單擊“下一步”按鈕,然后在每個頁面中循環我現有的代碼。 我感謝任何解決方案。

網址: https//jobs.utcaerospacesystems.com/search-jobs

首先,BeautifulSoup與獲取網頁沒有任何關系-您可以自己獲取網頁,然后將其提供給bs4進行處理。

您鏈接的頁面的問題在於它是javascript-僅在瀏覽器(或任何其他javascript VM)中正確顯示。

@Fabricator處在正確的軌道上-您需要觀察開發人員控制台,並查看ajax請求js將其發送到服務器的內容。 在這種情況下,還要看一下查詢字符串參數,其中包括一個稱為CurrentPage的參數-可能是您要關注的參數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM