美麗的湯解析錯誤

Question

我試圖使用beautifulsoup首先刪除html字符串中的<a>標記，但要保留其內容。 之后，我想刪除所有標簽並用新行替換它們。

strip_tags函數來自此文章。

這是我要執行的操作的一個示例：

text = "<p>This is a <a>test</a></p>"
soup = strip_tags(text, ["a"])
plain_text = soup.get_text("\n")
print(plain_text)

由於某種原因，輸出為u'This is a \\ntest' 。 如果<a>標簽已經被剝離，為什么會認為它仍然存在？

預期的輸出是This is a test 。

一個更復雜的示例： First<a>Link</a>Second

如何在標記之間進行分隔，並且仍然能夠剝離<a>標記？

確實，如果您打印soup.encode_contents() ，則沒有<a> 。

Answer 1

strip_tags函數來自此文章。

該函數以遞歸方式用標簽中包含的文本替換標簽。

因此，您的'<a>test</a>'被替換為'test' 。 那里沒有'<a>'標簽。

Answer 2

之所以這樣，是因為strip_tags函數正在操縱NavigableStrings。 （這就是為什么您在strip_tags中看到所有unicode強制轉換的原因）

當您運行soup.get_text（“ \\ n”）時，即使沒有<a>標記，它也會看到NavigableString的所有元素並在拆分處添加“ \\ n”。

為什么不只使用get_text（）獲取已刪除標簽的文本？

text = "<p>This is a <a>test</a> man</p> <p> more stinking <a>p</a> tags </p>"
plain_text = BeautifulSoup(text, 'html.parser')
ptags = plain_text.find_all('p')
mytext = ""
for tag in ptags:
    mytext = mytext + tag.get_text() + "\n"
print(mytext)

美麗的湯解析錯誤

問題描述

2 個解決方案

解決方案1
-1 2016-07-08 17:42:07

解決方案2
-1 2016-07-08 18:08:02

美麗的湯解析錯誤

問題描述

2 個解決方案

解決方案1 -1 2016-07-08 17:42:07

解決方案2 -1 2016-07-08 18:08:02

解決方案1
-1 2016-07-08 17:42:07

解決方案2
-1 2016-07-08 18:08:02