[英]Parsing HTML fragments with libxml SAX
我需要解析HTML片段,這意味着文件缺少<html>,<head>和<body>元素,否則具有格式正確的XHTML語法,並保證了UTF8編碼。 看來libxml是完成此任務的理想選擇,但是我有一些約束,我只是不知道如何實現。
哦,我承認我不願使用libxml的DOM看起來很古怪。 我對RAM極為了解,因此迫切需要對DOM進行全面控制,以便能夠在內存不足的情況下刪除某些節點,並在必要時重新讀取它們。
提前致謝。
好的,因為沒有人回答這個問題,所以我會嘗試自己解決。
我編寫了所有開始/結束元素處理程序,看起來libxml不再創建DOM。 至少,返回的文檔指針為NULL。 它仍然堅持html和body元素,但是我可以接受。
一個主要問題是libxml保留所有空白節點,無論如何。 因此,我必須解析文本內容以消除可忽略的空白。 很難看,但是可以用。 我應該提到解析UTF-8是您很少錯過的樂趣嗎?
老實說,libxml文檔是殘酷的。 我對任何嘗試閱讀文檔的人的建議:改為閱讀源代碼。 該代碼更易於閱讀和記錄。
感謝您的關注。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.