[英]Removing spaces and newlines between tags in html (aka unformatting) in python
[英]Replacing all html tags with newlines (or spaces)
我試圖弄清楚如何用換行符替換所有的html標簽。
我有一個包含信息的csv文件,但是我不需要html。 如果我得到文本而不是顯示html,則將返回的字符串連接起來(使用下面的示例,它將返回ActingDirectingIntroduction到ActingCollege WritingIntroductiong To Writing)。
我希望能夠用換行符替換所有html標記(<...>內的任何內容)。 任何幫助將不勝感激,下面的例子!
<ul>
<li>
Acting
</li>
<li>
Directing
</li>
<li>
Introduction to Acting
</li>
<li>
College Writing
</li>
<li>
Introduction to Writing
</li>
</ul>
使用出色的庫lxml.html
import lxml.html
document = lxml.html.document_fromstring(html_string)
print(document.text_content())
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.