[英]Need to open latest PDF file from website daily with Python 2.7
我正在編寫一個腳本,每天將打開網頁上的最新文件。 到目前為止,我的代碼如下:
from BeautifulSoup import BeautifulSoup
import urllib2
import re
html_page = urllib2.urlopen("http://www.baytown.org/city-hall/departments/police/daily-media-report")
soup = BeautifulSoup(html_page)
for link in soup.findAll('a', attrs={'href':
re.compile("^/home/showdocument")}):
print link.get('href')
我的輸出是
/home/showdocument?id=7455
/home/showdocument?id=7379
/home/showdocument?id=7381
/home/showdocument?id=7385
/home/showdocument?id=7385
/home/showdocument?id=7401
/home/showdocument?id=7451
/home/showdocument?id=7453
我需要閱讀此列表中的最新文件(ID號最高的文件),並且卡住了。 如何找到編號最大的文件並閱讀?
我將所有ID號添加到列表中,然后對列表進行排序以獲得最高ID號。
碼:
import urllib2
from bs4 import BeautifulSoup
import re
pdfs = []
html_page = urllib2.urlopen("http://www.baytown.org/city-hall/departments/police/daily-media-report")
soup = BeautifulSoup(html_page, 'html.parser')
for link in soup.findAll('a', attrs={'href': re.compile("^/home/showdocument")}):
pdfs.append(str(link.get('href')).split('id=')[1])
latest = sorted(pdfs)[-1]
print "Latest PDF id = ", latest
輸出:
Latest PDF id = 7455
由於最新的PDF始終排在列表的第一位:
latest = soup.findAll('a', attrs={'href': re.compile("^/home/showdocument")})[0]["href"].split('=')[1]
print (latest)
輸出7455
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.