在python中爬行，我无法使用findALL

Question

我正在使用python 3.x练习爬网

<p style="MARGIN-BOTTOM: 3pt; TEXT-AUTOSPACE: ; mso-pagination: none; mso
padding-alt: 0pt 0pt 0pt 0pt" class="0">
<a href="http://www.blablabla.pdf"    target="_blank">
<strong><img align="center"src="http://blablablablablabla.png"
width="108"></strong></a></p>

和p> a

<a href="http://BLABLABLABLABLA.pdf"
target="_blank"><strong><img align="center"
src="http://blablablablabla.png"
width="108"></strong></a>

然后我用了

divTag = soup.find('p', style='MARGIN-BOTTOM:')

为了得到

a href="http://blabla~~~

但是，我不明白。

结果（divTag = soup.find（'p'，style ='MARGIN-BOTTOM：'）为None。

我不知道为什么

Answer 1

<p style="MARGIN-BOTTOM: 3pt; TEXT-AUTOSPACE: ; mso-pagination: none; mso
padding-alt: 0pt 0pt 0pt 0pt" class="0">

风格是

"MARGIN-BOTTOM: 3pt; TEXT-AUTOSPACE: ; mso-pagination: none; mso
padding-alt: 0pt 0pt 0pt 0pt"

不是MARGIN-BOTTOM

import bs4

html = '''<p style="MARGIN-BOTTOM: 3pt; TEXT-AUTOSPACE: ; mso-pagination: none; mso
padding-alt: 0pt 0pt 0pt 0pt" class="0">
<a href="http://www.auri.re.kr/pdf/UrbanPlanning_BusanJingu.pdf"    target="_blank">
<strong><img align="center"src="http://auri.re.kr/upload/contentsImg/IMG20140922162029.png"
width="108"></strong></a></p>'''

soup = bs4.BeautifulSoup(html, 'lxml')

方法1：

soup.select_one('p a').get('href')

方法2：

soup.select_one('a[href$=".pdf"]').get('href')

出：

'http://www.auri.re.kr/pdf/UrbanPlanning_BusanJingu.pdf'

在python中爬行，我无法使用findALL

问题描述

1 个解决方案

解决方案1
1 已采纳 2017-01-03 08:24:07

在python中爬行，我无法使用findALL

问题描述

1 个解决方案

解决方案1 1 已采纳 2017-01-03 08:24:07

解决方案1
1 已采纳 2017-01-03 08:24:07