每天需要使用Python 2.7打開網站上的最新PDF文件

Question

我正在編寫一個腳本，每天將打開網頁上的最新文件。 到目前為止，我的代碼如下：

from BeautifulSoup import BeautifulSoup
import urllib2
import re


html_page = urllib2.urlopen("http://www.baytown.org/city-hall/departments/police/daily-media-report")
soup = BeautifulSoup(html_page)
for link in soup.findAll('a', attrs={'href': 
re.compile("^/home/showdocument")}):

       print link.get('href')

我的輸出是

/home/showdocument?id=7455
/home/showdocument?id=7379
/home/showdocument?id=7381
/home/showdocument?id=7385
/home/showdocument?id=7385
/home/showdocument?id=7401
/home/showdocument?id=7451
/home/showdocument?id=7453

我需要閱讀此列表中的最新文件（ID號最高的文件），並且卡住了。 如何找到編號最大的文件並閱讀？

Answer 1

我將所有ID號添加到列表中，然后對列表進行排序以獲得最高ID號。

碼：

import urllib2
from bs4 import BeautifulSoup
import re

pdfs = []
html_page = urllib2.urlopen("http://www.baytown.org/city-hall/departments/police/daily-media-report")
soup = BeautifulSoup(html_page, 'html.parser')
for link in soup.findAll('a', attrs={'href': re.compile("^/home/showdocument")}):
       pdfs.append(str(link.get('href')).split('id=')[1])
latest = sorted(pdfs)[-1]
print "Latest PDF id = ", latest

輸出：

Latest PDF id =  7455

Answer 2

由於最新的PDF始終排在列表的第一位：

latest = soup.findAll('a', attrs={'href': re.compile("^/home/showdocument")})[0]["href"].split('=')[1]
print (latest)

輸出7455

每天需要使用Python 2.7打開網站上的最新PDF文件

問題描述

2 個解決方案

解決方案1
0 已采納 2017-09-26 04:28:20

解決方案2
0 2017-09-26 08:02:34

每天需要使用Python 2.7打開網站上的最新PDF文件

問題描述

2 個解決方案

解決方案1 0 已采納 2017-09-26 04:28:20

解決方案2 0 2017-09-26 08:02:34

解決方案1
0 已采納 2017-09-26 04:28:20

解決方案2
0 2017-09-26 08:02:34