簡體   English   中英

用換行符(或空格)替換所有html標簽。

[英]Replacing all html tags with newlines (or spaces)

我試圖弄清楚如何用換行符替換所有的html標簽。

我有一個包含信息的csv文件,但是我不需要html。 如果我得到文本而不是顯示html,則將返回的字符串連接起來(使用下面的示例,它將返回ActingDirectingIntroduction到ActingCollege WritingIntroductiong To Writing)。

我希望能夠用換行符替換所有html標記(<...>內的任何內容)。 任何幫助將不勝感激,下面的例子!

<ul>
<li>
 Acting
</li>
<li>
 Directing
</li>
<li>
 Introduction to Acting
</li>
<li>
 College Writing
</li>
<li>
 Introduction to Writing
</li>
</ul>

使用出色的庫lxml.html

import lxml.html
document = lxml.html.document_fromstring(html_string)
print(document.text_content())

這是相關的文檔http://lxml.de/lxmlhtml.html#html-element-methods

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM