如何使用美麗湯解析htm文件

Question

我正在嘗試使用BeautifulSoup解析htm本地文件。

.htm是文件類型。

from bs4 import BeautifulSoup
with open('locfile.htm') as fp:
   soup = BeautifulSoup(fp, "html5lib")
print(soup)

嘗試使用三個不同的解析器，但獲得相同的結果。 html5lib的示例

<html><body><p>t a b l e   i d = " T a b l a D a t a "   c l a s s = " T a b l a    w i d t h = " 9 0 %  &gt; 
 t r &gt;....

.....

等等。 我認為“＆gt”是但已轉換為那些字符串。

使用html.parser和html5llib獲得類似的結果

如何將標簽保持在體內？

可能是錯誤的解析操作？

soup.contents
[<html><head></head><body>&lt;table id=........
..................
</body></html>

但內部標簽已丟失，或轉換為html轉義字符

如何維護標簽？

Answer 1

終於我找到了解決方法。

問題是原始文件的編碼：

with open('locfile.htm',encoding="utf-16LE") as fp: