[英]Parsing and editing HTML files using Python
問題如下:從對象數據庫轉儲了一些基本的HTML自動生成的文件。 它是基於表的信息。 文件的結構每一代都是相同的,通常是連貫的內容。 我必須進一步處理該文件,做一些注釋,等等,因此,我想編輯一下此HTML文件,例如添加具有可寫文本字段的額外表格單元格以在文件中添加注釋,也許還有一些最終按鈕以生成一些其他輸出。 現在的問題:
我選擇編寫Python腳本來處理文件中的更改。 這是一個正確的選擇,還是您可以提出更好的建議?
現在,我將按以下方式處理:
1)制作基本文件的工作副本
2)在Python中以I / O字符串形式打開工作副本:
content = content_file.read()
3)通過html.parser對象運行此命令:
ModifyHtmlParser.feed(content)
4)使用HTML解析器的重載基類方法,我正在尋找標簽的有趣部分:
def handle_starttag(self, tag, attrs):
#print("Encountered a start tag:", tag)
if tag == "tr":
print("Table row start!")
offset = self.getpos()
tagText = self.get_starttag_text()
結果,我得到了輸入,標記標簽的不可變子集,而現在,我感覺自己正走向死胡同...關於如何重新構想的任何想法? 這個特定的庫中的任何一個可能有用嗎?
我建議您使用以下一般方法。
tr
which ...”。) 這是一個有關如何實現上述內容的特定示例。 (庫的確切選擇有些靈活。這里有多個選項。)
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.