[英]How do I get a cleaned html file from HtmlCleaner?
我的應用程序在第一次啟動時就將某個網站下載為HTML文件。 HTML文件的過程非常混亂,因此我想用HtmlCleaner對其進行清理,以便隨后可以使用Jsoup對其進行解析。 但是,如何在清理后獲得新的清理過的html項目?
我做了一些研究,這就是我所能找到的:
HtmlCleaner htmlCleaner = new HtmlCleaner();
TagNode root = htmlCleaner.clean(url);
HtmlCleaner.getInnerHtml(root);
String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";
但是我看不到這段代碼在哪里寫入新文件? 如果沒有,如何實現它,以便刪除舊文件並創建新的清理過的html文件?
您可以執行以下操作:
HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.themoscowtimes.com/";
TagNode node = cleaner.clean(new URL(siteUrl));
// serialize to xml file
new PrettyXmlSerializer(props).writeToFile(
node , "cleaned.xml", "utf-8"
);
要么
// serialize to html file
SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(htmlCleaner.getProperties());
serializer.writeToFile(node, "c:/temp/cleaned.html");
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.