繁体   English   中英

Python lxml.html换行符?

[英]Python lxml.html linebreaks?

我正在使用lxml.html.cleaner从输入文本中清除html。 如何在lxml.html中将\\n更改为<br />

相当简单,有点hacky的方法:假设您使用了lxml.html.parse或任何一种构建DOM的方法,都可以在两步过程中完成此操作。

  1. 使用字符串替换遍历节点的text和tail属性。 查看iterdescendants方法,该方法为您提供了所有内容。
  2. lxml.html.clean正常

一种更复杂的方法是对lxml.html.clean模块进行修补。 与许多lxml不同,此模块是用Python编写的,并且相当容易访问。 例如,当前有一个_substitute_whitespace函数。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM