如何在 BeautifulSoup 对象中搜索字符串？

Question

我正在检查 Craigslist 的帖子，看看它们是否已被标记为删除。 我的脚本非常简单：

import requests
from bs4 import BeautifulSoup

def check_if_flagged(url):
    page = requests.get (url)
    soup = BeautifulSoup(page.content, 'html.parser')
    return ('flagged for removal' in soup)

问题是，我有一个 url，我知道一个事实已被标记为删除，但check_if_flagged返回False 。 这是在 BeautifulSoup 对象中搜索子字符串的正确方法吗？ 有没有更优化的方法？ 如果您重现此错误，请告诉我。

这是供参考的网址：'https://newyork.craigslist.org/brk/apa/d/brooklyn-1-bedroom-1-bath-apt-located/7206865558.html'

Answer 1

要搜索汤中的文本，您可以使用text=属性。 或者您可以将返回的 HTML 代码搜索为字符串：

import requests
from bs4 import BeautifulSoup

def check_if_flagged(url):
    page = requests.get(url).text
    return 'this posting has been flagged for removal' in page.lower()

def check_if_flagged2(url):
    page = requests.get(url)
    soup = BeautifulSoup(page.content, 'html.parser')
    return bool(soup.find(text=lambda t: 'this posting has been flagged for removal' in t.lower()))

url = 'https://newyork.craigslist.org/brk/apa/d/brooklyn-1-bedroom-1-bath-apt-located/7206865558.html'
print(check_if_flagged(url))
print(check_if_flagged2(url))

印刷：

True
True

如何在 BeautifulSoup 对象中搜索字符串？

问题描述

1 个解决方案

解决方案1
0 2020-10-27 17:47:57

如何在 BeautifulSoup 对象中搜索字符串？

问题描述

1 个解决方案

解决方案1 0 2020-10-27 17:47:57

解决方案1
0 2020-10-27 17:47:57