如何使用Jsoup或其他解析器解析此站點？

Question

我正在嘗試解析在頁眉中沒有定義編碼的頁面，在HTML中它將ISO-8859-1定義為編碼。 Jsoup無法使用默認設置來解析它（默認情況下，HTMLunit和PHP的Simple HTML Dom Parser也無法處理它）。 即使我自己定義了Jsoup的編碼，它仍然無法正常工作。 不知道為什么。

這是我的代碼：

    String url = "http://www.parkett.de";
    Document doc = null;
    try {
         doc = Jsoup.parse(new URL(url).openStream(), "ISO-8859-1", url);
        // doc = Jsoup.parse(new URL(url).openStream(), "CP1252", url);
    } catch (IOException e1) {
        // TODO Auto-generated catch block
        e1.printStackTrace();
    }

    Element extractHtml = null;
    Elements elements = null;
    String title = null;
    elements = doc.select("h1");
    if(!elements.isEmpty()) {
        extractHtml = elements.get(0);
        title = extractHtml.text();
    }
    System.out.println(title);

感謝您的任何建議！

Answer 1

使用URL時，本食譜的第4章和第 9 章建議使用Jsoup.connect(...).get() 。 第5章建議從本地文件加載文檔時使用Jsoup.parse() 。

public static void main(String[] args) {

    Document doc = null;

    try {
        doc = Jsoup.connect("http://www.parkett.de/").get();
    } catch (IOException e) {
        e.printStackTrace();
    }

    Element firstH1 = doc.select("h1").first();

    System.out.println((firstH1 != null) ? firstH1.text() : "First <h1> not found.");
}

如何使用Jsoup或其他解析器解析此站點？

問題描述

1 個解決方案

解決方案1
1 2013-09-13 20:51:54

如何使用Jsoup或其他解析器解析此站點？

問題描述

1 個解決方案

解決方案1 1 2013-09-13 20:51:54

解決方案1
1 2013-09-13 20:51:54