如何在python中解析格式錯誤的HTML

Question

我需要瀏覽解析的HTML文檔的DOM樹。

我在使用lxml解析字符串之前使用的是uTidyLib

a = tidy.parseString（html_code，options）dom = etree.fromstring（str（a））

有時我得到一個錯誤，似乎tidylib無法修復格式錯誤的HTML。

如何在不出錯的情況下解析每個HTML文件（僅解析一些無法修復的文件部分）？

Answer 1

美麗的湯用無效/破壞的HTML做得很好

>>> from BeautifulSoup import BeautifulSoup
>>> soup = BeautifulSoup("<htm@)($*><body><table <tr><td>hi</tr></td></body><html")
>>> print soup.prettify()
<htm>
 <body>
  <table>
   <tr>
    <td>
     hi
    </td>
   </tr>
  </table>
 </body>
</htm>

Answer 2

由於您已經在使用lxml，您是否嘗試過lxml的 ElementSoup模塊？

如果ElementSoup無法修復HTML，那么您可能需要首先應用自己的過濾器，這些過濾器基於您自己對數據如何被破壞的觀察。

如何在python中解析格式錯誤的HTML

問題描述

2 個解決方案

解決方案1
25 已采納 2009-05-24 21:06:13

解決方案2
13 2009-05-24 22:52:08

如何在python中解析格式錯誤的HTML

問題描述

2 個解決方案

解決方案1 25 已采納 2009-05-24 21:06:13

解決方案2 13 2009-05-24 22:52:08

解決方案1
25 已采納 2009-05-24 21:06:13

解決方案2
13 2009-05-24 22:52:08