如何從python中的字符串中獲取純文本？

Question

其中有一個帶有許多html標簽的字符串，如下所示，
u'find /home/tiger/workspace  -name "[0-9]*" find /home/tiger/workspace  -name "[!0-9]*" find /home/tiger/workspace  -name "[^0-9]*" \找\出\所\有\包\含\數\字\的\文\件\，\不\包\含\數\字\的\文\件\。 tiger@debian:~$ find /home/tiger  -name "*[0-9]*"  >kan1 tiger@debian:~$ find /home/tiger  -name "[0-9]*"  >kan2 tiger@debian:~$ find /home/tiger  -name "*[0-9]"  >kan3 \包\含\數\字\，\數\字\開\頭\，\數\字\結\尾'

如何獲取字符串中的純文本以刪除html標簽？

Answer 1

使用html2text庫：

>>> print html2text.html2text(s)
find /home/tiger/workspace&nbsp_place_holder; -name "[0-9]*"

find /home/tiger/workspace&nbsp_place_holder; -name "[!0-9]*"

find /home/tiger/workspace&nbsp_place_holder; -name "[^0-9]*"


找出所有包含數字的文件，不包含數字的文件。

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"*[0-9]*"&nbsp_place_holder; >kan1

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"[0-9]*"&nbsp_place_holder; >kan2

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"*[0-9]"&nbsp_place_holder; >kan3



包含數字，數字開頭，數字結尾

請參閱使用Python從HTML文件提取文本以供參考。

如何從python中的字符串中獲取純文本？

問題描述

1 個解決方案

解決方案1
0 已采納 2013-04-07 05:10:14

如何從python中的字符串中獲取純文本？

問題描述

1 個解決方案

解決方案1 0 已采納 2013-04-07 05:10:14

解決方案1
0 已采納 2013-04-07 05:10:14