Python：要从文本中删除的Regex v.BeautifulSoup <TYPE>

Question

我需要删除标签<TYPE>EX和</TEXT>和<TYPE>XML和</TEXT>之间的文本中的所有部分。 我当时正在考虑使用正则表达式，如下所示：

re.sub(r"(?is)<TYPE>EX[^>]*>(.*?)</TEXT>",'',text)

和

re.sub(r"(?is)<TYPE>XML[^>]*>(.*?)</TEXT>",'',text)

但是我继续阅读StackOverflow，如果BeautifulSoup可以胜任，请不要使用regex 。 如何使用BeautifulSoup删除文本中这些标签之间的内容？ 我认为这是不正确的：

soup = BeautifulSoup(text.lower())
[s.extract() for s in soup('TYPE')]

我必须指定<TYPE>EX和<TYPE>XML 。 在两种情况下，结束标记实际上都是</TEXT> 。 可以在此处找到示例.txt文件。 是否应该坚持使用正则表达式？

Answer 1

您可以使用正则表达式（是）来匹配包含的文本：

soup.find_all('TYPE', text=re.compile('^\s*(?:EX|XML)', re.I))

这将找到所有具有标记名TYPE标记，它们直接包含的文本以EX或XML开头（不区分大小写），但允许在开始标记和文本之间留有空格。

然后，您可以提取这些标签以将其删除：

for type_tag in soup.find_all('TYPE', text=re.compile('^\s*(?:EX|XML)', re.I)):
    type_tag.extract()

我假设您使用BeautifulSoup(text, 'xml')将文档解析为XML ； 否则，标签将不区分大小写地匹配，并且您需要将要查找的标签小写（例如find_all('type', ....) ）。 您需要为BeautifulSoup安装lxml以支持XML解析。

Python：要从文本中删除的Regex v.BeautifulSoup <TYPE>

问题描述

1 个解决方案

解决方案1
1 已采纳 2014-11-20 09:33:47

Python：要从文本中删除的Regex v.BeautifulSoup <TYPE>

问题描述

1 个解决方案

解决方案1 1 已采纳 2014-11-20 09:33:47

解决方案1
1 已采纳 2014-11-20 09:33:47