如何刪除不必要的標簽？

Question

我在我的表（mysql）中有字段“body”，並且有很多條目，例如：

</p><p>  &nbsp;</p><p>

</p><p> 
   </p><p>

很多空間，新線，等等。如何刪除它？

這不起作用：

text.replace('</p><p>&nbsp;</p><p>', '</p><p>')
text.replace('</p><p>\n</p><p>', '</p><p>')

Answer 1

text = ''.join(text.split()) - 之后您可以繼續替換。

Answer 2

我會在語法樹中解析這樣的文件，然后刪除空葉。 然后會再次生成HTML文件。 不幸的是我不在python中工作，我無法為此指定有用的庫。

Answer 3

什么@Jurlie建議是一個很好的方法。 考慮將BeautifulSoup用於此purpouse。 它是一個非常成熟和強大的庫。

Answer 4

試試這個正則表達式：

>>> import re
>>> text = '''</p><p>  &nbsp;</p><p>
... 
... </p><p> 
...    </p><p>
... '''
>>> re.sub(r'<p>(?:&nbsp;|\s|<br \/>)*?</p>\s*', '', text)
'</p><p>\n'

Answer 5

text.strip('>&nbsp;').strip(' ').strip('\n').strip('\t')

如何刪除不必要的標簽？

問題描述

5 個解決方案

解決方案1
2 2012-03-14 08:24:09

解決方案2
1 2012-03-14 08:24:52

解決方案3
1 2012-03-14 09:11:04

解決方案4
0 2012-03-14 08:33:12

解決方案5
0 2012-03-14 08:43:48

如何刪除不必要的標簽？

問題描述

5 個解決方案

解決方案1 2 2012-03-14 08:24:09

解決方案2 1 2012-03-14 08:24:52

解決方案3 1 2012-03-14 09:11:04

解決方案4 0 2012-03-14 08:33:12

解決方案5 0 2012-03-14 08:43:48

解決方案1
2 2012-03-14 08:24:09

解決方案2
1 2012-03-14 08:24:52

解決方案3
1 2012-03-14 09:11:04

解決方案4
0 2012-03-14 08:33:12

解決方案5
0 2012-03-14 08:43:48