解析前從HTML去除空格

Question

我有一個包含HTML的Python字典，稍后我想使用beautifulsoup進行解析，但是在解析之前，我想刪除與標簽元素直接相鄰的空格。

例如：

string = "text <tag>some texts</tag> <tag> text</tag> some text"
>>> remove_whitespace(string)
'text<tag>some texts</tag><tag>text</tag>some text'

Answer 1

假設您允許使用任何種類的標簽名稱，並且標簽中絕不包含尖括號，則可以使用正則表達式快速解決此問題：

>>> import re
>>> string = "text <tag>some texts</tag> <tag> text</tag> some text"
>>> regex = re.compile(r"\s*(<[^<>]+>)\s*")
>>> regex.sub("\g<1>", string)
'text<tag>some texts</tag><tag>text</tag>some text'

說明：

\s*     # Match any number of whitespace characters
(       # Match and capture in group 1:
 <      # - an opening angle bracket
 [^<>]+ # - one or more characters except angle brackets
 >      # - a closing angle bracket
)       # End of group 1 (used to restore the matched text later)
\s*     # Match any number of whitespace characters

解析前從HTML去除空格

問題描述

1 個解決方案

解決方案1
1 已采納 2014-05-03 08:14:34

解析前從HTML去除空格

問題描述

1 個解決方案

解決方案1 1 已采納 2014-05-03 08:14:34

解決方案1
1 已采納 2014-05-03 08:14:34