簡體   English   中英

如何從python中的字符串中獲取純文本?

[英]How to get pure text from a string in python?

其中有一個帶有許多html標簽的字符串,如下所示,
u'find /home/tiger/workspace&nbsp; -name "[0-9]*"<br />find /home/tiger/workspace&nbsp; -name "[!0-9]*"<br />find /home/tiger/workspace&nbsp; -name "[^0-9]*"<br /><br />\找\出\所\有\包\含\數\字\的\文\件\,\不\包\含\數\字\的\文\件\。<br />tiger@debian:~$ find /home/tiger&nbsp; -name "*[0-9]*"&nbsp; &gt;kan1<br />tiger@debian:~$ find /home/tiger&nbsp; -name "[0-9]*"&nbsp; &gt;kan2<br />tiger@debian:~$ find /home/tiger&nbsp; -name "*[0-9]"&nbsp; &gt;kan3<br /><br /><br />\包\含\數\字\,\數\字\開\頭\,\數\字\結\尾'

如何獲取字符串中的純文本以刪除html標簽?

使用html2text庫:

>>> print html2text.html2text(s)
find /home/tiger/workspace&nbsp_place_holder; -name "[0-9]*"

find /home/tiger/workspace&nbsp_place_holder; -name "[!0-9]*"

find /home/tiger/workspace&nbsp_place_holder; -name "[^0-9]*"


找出所有包含數字的文件,不包含數字的文件。

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"*[0-9]*"&nbsp_place_holder; >kan1

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"[0-9]*"&nbsp_place_holder; >kan2

tiger@debian:~$ find /home/tiger&nbsp_place_holder; -name
"*[0-9]"&nbsp_place_holder; >kan3



包含數字,數字開頭,數字結尾

請參閱使用Python從HTML文件提取文本以供參考。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM