如何从 python 中的 1 个字符串中删除特定案例元素

Question

在这里，我有一个带有网站 html 数据的字符串，它存储在 urldata 中

urldata = BeautifulSoup(urlopen(urllib.request.Request(url, headers=headers), timeout=3).read(),features="html.parser")```

当我打印urldata它显示来自特定页面的 html 数据所以这里我需要删除 https 和 http 链接

所以我可以通过这种方式填写 http 或 https 链接

web_page = str(urldata)
urls = re.findall('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA- F]))+', web_page)
print(urls)

所以在这里我想从“urldata”中删除http和https链接

我有 url 列表已经在 url 变量（类型“列表”）

那么有什么方法可以将列表“urls”与“web_page”字符串进行比较

并从 web_page 字符串中删除 url

Answer 1

您可以使用re.sub()将每个 url 替换为空字符串：

web_page = str(urldata)
web_page = re.sub('http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA- F]))+', '', web_page)
print(web_page)

更新：

web_page = str(urldata)
for url in urls:
    web_page = web_page.replace(url, '')
print(web_page)

如何从 python 中的 1 个字符串中删除特定案例元素

问题描述

1 个解决方案

解决方案1
1 已采纳 2020-07-01 19:16:51

如何从 python 中的 1 个字符串中删除特定案例元素

问题描述

1 个解决方案

解决方案1 1 已采纳 2020-07-01 19:16:51

解决方案1
1 已采纳 2020-07-01 19:16:51