如何從HtmlCleaner獲取已清除的html文件？

Question

我的應用程序在第一次啟動時就將某個網站下載為HTML文件。 HTML文件的過程非常混亂，因此我想用HtmlCleaner對其進行清理，以便隨后可以使用Jsoup對其進行解析。 但是，如何在清理后獲得新的清理過的html項目？

我做了一些研究，這就是我所能找到的：

HtmlCleaner htmlCleaner = new HtmlCleaner();

TagNode root = htmlCleaner.clean(url);

HtmlCleaner.getInnerHtml(root);

String html = "<" + root.getName() + ">" + htmlCleaner.getInnerHtml(root) + "</" + root.getName() + ">";

但是我看不到這段代碼在哪里寫入新文件？ 如果沒有，如何實現它，以便刪除舊文件並創建新的清理過的html文件？

Answer 1

您可以執行以下操作：

HtmlCleaner cleaner = new HtmlCleaner();
final String siteUrl = "http://www.themoscowtimes.com/";

TagNode node = cleaner.clean(new URL(siteUrl));


// serialize to xml file
new PrettyXmlSerializer(props).writeToFile(
    node , "cleaned.xml", "utf-8"
);

要么

// serialize to html file
SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(htmlCleaner.getProperties());
serializer.writeToFile(node, "c:/temp/cleaned.html");

如何從HtmlCleaner獲取已清除的html文件？

問題描述

1 個解決方案

解決方案1
0 已采納 2013-09-25 12:06:07

如何從HtmlCleaner獲取已清除的html文件？

問題描述

1 個解決方案

解決方案1 0 已采納 2013-09-25 12:06:07

解決方案1
0 已采納 2013-09-25 12:06:07