簡體   English   中英

Python lxml.html換行符?

[英]Python lxml.html linebreaks?

我正在使用lxml.html.cleaner從輸入文本中清除html。 如何在lxml.html中將\\n更改為<br />

相當簡單,有點hacky的方法:假設您使用了lxml.html.parse或任何一種構建DOM的方法,都可以在兩步過程中完成此操作。

  1. 使用字符串替換遍歷節點的text和tail屬性。 查看iterdescendants方法,該方法為您提供了所有內容。
  2. lxml.html.clean正常

一種更復雜的方法是對lxml.html.clean模塊進行修補。 與許多lxml不同,此模塊是用Python編寫的,並且相當容易訪問。 例如,當前有一個_substitute_whitespace函數。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM