使用TagSoup將HTML頁面轉換為XHTML

Question

很抱歉，如果這太簡單了，但我找不到教程，也沒有找到TagSoup Java版本的文檔。

基本上我想從互聯網上下載HTML網頁並將其轉換為包含在字符串中的XHTML。 我怎么能用TagSoup做到這一點？

謝謝！

Answer 1

像這樣的東西：

wget -O - example.com/bad.html | java -jar tagsoup.jar

或者，來自Java：

解析HTML：

創建org.ccil.cowan.tagsoup.Parser的實例

提供您自己的SAX2 ContentHandler

提供引用HTML的InputSource

並parse() ！

Answer 2

下面的代碼應該為您提供一種方法來下拉網頁並使用TagSoup進行相應的解析...

        HttpClient client = new DefaultHttpClient();
        HttpGet request = new HttpGet("http://streak.espn.go.com/en/?date=20120824");
        HttpResponse response = client.execute(request);

        // Check if server response is valid
        StatusLine status = response.getStatusLine();
        if (status.getStatusCode() != 200) {
            throw new IOException("Invalid response from server: " + status.toString());
        }

        // Pull content stream from response
        HttpEntity entity = response.getEntity();
        InputStream inputStream = entity.getContent();

        try
        {
            XMLReader parser = XMLReaderFactory.createXMLReader("org.ccil.cowan.tagsoup.Parser");

            // Use the TagSoup parser to build an XOM document from HTML
            Document doc = new Builder(parser).build(builder.toString());

            // Push your data to string or XML
            doc.toString();
            doc.toXML();
        }
        catch(IOException e)
        { ... }

使用TagSoup將HTML頁面轉換為XHTML

問題描述

2 個解決方案

解決方案1
8 已采納 2009-10-19 15:05:36

解決方案2
0 2012-09-08 05:13:01

使用TagSoup將HTML頁面轉換為XHTML

問題描述

2 個解決方案

解決方案1 8 已采納 2009-10-19 15:05:36

解決方案2 0 2012-09-08 05:13:01

解決方案1
8 已采納 2009-10-19 15:05:36

解決方案2
0 2012-09-08 05:13:01