用什么漂亮的湯 findall 正則表達式字符串？

Question

我在表單的 HTML 中有鏈接

<a href="/downloadsServlet?docid=abc" target="_blank">Report 1</a>
<a href="/downloadsServlet?docid=ixyz" target="_blank">Fetch Report 2 </a>

我可以使用 BeautifulSoup 獲取上述表單的鏈接列表

我的代碼如下

from bs4 import BeautifulSoup
html_page = urllib2.urlopen(url)
soup = BeautifulSoup(html_page)
listOfLinks = list(soup.findall('a'))

但是，我想在引用鏈接的文本中找到包含“Fetch”一詞的鏈接。

我試過表格

soup.findAll('a', re.compile(".*Fetch.*"))

但這行不通。 如何僅選擇具有 href 且文本部分中包含“Fetch”一詞的標簽 a？

Answer 1

正則表達式在這里可能有點矯枉過正，但它允許可能的擴展：

def criterion(tag):
  return tag.has_attr('href') and re.search('Fetch', tag.text)

soup.findAll(criterion)
# [<a href="/downloadsServlet?docid=ixyz" target="_blank">Fetch Report 2 </a>]

Answer 2

import re
soup.findAll('a', text = re.compile("Fetch"))

您可以使用正則表達式作為過濾器，它將使用re.search方法來過濾我們的標簽。

text/string是標簽的文本值， text = re.compile("Fetch")表示查找文本值包含'Fetch'的標簽

文檔

還有一件事，使用find_all()或findAll() ， findall()不是 bs4 中的關鍵字

用什么漂亮的湯 findall 正則表達式字符串？

問題描述

2 個解決方案

解決方案1
6 已采納 2017-01-20 07:13:38

解決方案2
6 2017-01-20 07:16:45

用什么漂亮的湯 findall 正則表達式字符串？

問題描述

2 個解決方案

解決方案1 6 已采納 2017-01-20 07:13:38

解決方案2 6 2017-01-20 07:16:45

解決方案1
6 已采納 2017-01-20 07:13:38

解決方案2
6 2017-01-20 07:16:45