[英]Beautiful Soup Parsing Error
我试图使用beautifulsoup首先删除html字符串中的<a>
标记,但要保留其内容。 之后,我想删除所有标签并用新行替换它们。
strip_tags函数来自此文章 。
这是我要执行的操作的一个示例:
text = "<p>This is a <a>test</a></p>"
soup = strip_tags(text, ["a"])
plain_text = soup.get_text("\n")
print(plain_text)
由于某种原因,输出为u'This is a \\ntest'
。 如果<a>
标签已经被剥离,为什么会认为它仍然存在?
预期的输出是This is a test
。
一个更复杂的示例: <p>First</p><a>Link</a><p>Second</p>
如何在<p>
标记之间进行分隔,并且仍然能够剥离<a>
标记?
确实,如果您打印soup.encode_contents()
,则没有<a>
。
之所以这样,是因为strip_tags函数正在操纵NavigableStrings。 (这就是为什么您在strip_tags中看到所有unicode强制转换的原因)
当您运行soup.get_text(“ \\ n”)时,即使没有<a>
标记,它也会看到NavigableString的所有元素并在拆分处添加“ \\ n”。
为什么不只使用get_text()获取已删除标签的文本?
text = "<p>This is a <a>test</a> man</p> <p> more stinking <a>p</a> tags </p>"
plain_text = BeautifulSoup(text, 'html.parser')
ptags = plain_text.find_all('p')
mytext = ""
for tag in ptags:
mytext = mytext + tag.get_text() + "\n"
print(mytext)
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.