[英]Scraping URLs using BeautifulSoup
我正在抓取板球賽時間表的網站。我正在使用美麗的湯。 這是網址
www.ecb.c0.uk/stats/fixtures-results?m=1&y=2016
這是指2016年1月的所有燈具。
我也在努力刮擦其他歲月。 有什么辦法可以將代碼年份更改為刮擦的一部分? 我是否必須在URL中放置一個變量? 我是否必須形成循環或遍歷列表?
from bs4 import BeautifulSoup
import requests
html = requests.get("http://www.ecb.co.uk/stats/fixtures-results?m=1& y=2016").text
soup = BeautifulSoup(html,'lxml')
您可以使用兩個循環,第一個循環使用多年,第二個循環使用幾個月:
base_url = "http://www.ecb.co.uk/stats/fixtures-results?m={month}&y={year}"
for year in range(2000, 2017):
for month in range(1, 13):
requests.get(base_url.format(month=month, year=year))
或更短的itertools
變體:
for year, month in itertools.product(range(2000, 2017), range(1, 13)):
requests.get(base_url.format(month=month, year=year))
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.