使用Python解析和編輯HTML文件

Question

問題如下：從對象數據庫轉儲了一些基本的HTML自動生成的文件。 它是基於表的信息。 文件的結構每一代都是相同的，通常是連貫的內容。 我必須進一步處理該文件，做一些注釋，等等，因此，我想編輯一下此HTML文件，例如添加具有可寫文本字段的額外表格單元格以在文件中添加注釋，也許還有一些最終按鈕以生成一些其他輸出。 現在的問題：

我選擇編寫Python腳本來處理文件中的更改。 這是一個正確的選擇，還是您可以提出更好的建議？

現在，我將按以下方式處理：

1）制作基本文件的工作副本

2）在Python中以I / O字符串形式打開工作副本：

content = content_file.read()

3）通過html.parser對象運行此命令：

ModifyHtmlParser.feed(content)

4）使用HTML解析器的重載基類方法，我正在尋找標簽的有趣部分：

def handle_starttag(self, tag, attrs):
    #print("Encountered a start tag:", tag)
    if tag == "tr":
        print("Table row start!")
        offset = self.getpos()
        tagText = self.get_starttag_text()

結果，我得到了輸入，標記標簽的不可變子集，而現在，我感覺自己正走向死胡同...關於如何重新構想的任何想法？ 這個特定的庫中的任何一個可能有用嗎？

Answer 1

我建議您使用以下一般方法。

使用此類任務的任何現有庫，將HTML加載並解析為方便的內存樹表示形式。
在樹中找到相關的節點。 （第1部分中的大多數庫將提供某種形式的XPath和/或CSS選擇器。兩者都允許您查找滿足特定規則的所有節點。在您的情況下，規則可能是“ tr which ...”。）
單獨處理找到的節點（第1部分中的大多數庫將使您可以就地編輯樹）。
寫出修改后的樹或新生成的樹。

這是一個有關如何實現上述內容的特定示例。 （庫的確切選擇有些靈活。這里有多個選項。）

HTML解析和表示庫有多個選項。 我最近聽到的最常見的建議是LXML 。
LXML同時提供CSS選擇器支持和XPath支持。
請參閱LXML etree文檔。

使用Python解析和編輯HTML文件

問題描述

1 個解決方案

解決方案1
1 2015-06-28 09:41:26

使用Python解析和編輯HTML文件

問題描述

1 個解決方案

解決方案1 1 2015-06-28 09:41:26

解決方案1
1 2015-06-28 09:41:26