如何在不使用“”替換部分HTML代碼的情況下使用Java下載完整的網頁？

Question

我一直在編寫一些網站代碼，並將HTML代碼復制到文本文件中。 問題是某些代碼被替換為“＆nbsp”。 這是我正在使用的代碼：

public void addRecords() throws IOException{

    URL google = new URL("Insert Website Here");
    BufferedReader in = new BufferedReader(
            new InputStreamReader(google.openStream()));

    String inputLine;
    while ((inputLine = in.readLine()) != null){
        System.out.println(inputLine);
        z.format("%s \n ", (inputLine));
    }
    in.close();
}

Answer 1

將網頁讀取到連續的緩沖區中。
替換為“＆nbsp;” 與“”。
寫入文本文件。

選項2

閱讀網頁（就像現在一樣）。
獲取網頁的一行。
替換為“＆nbsp;” 與“”。
編寫網頁的一行。
如果有更多行，請轉到步驟1。

Answer 2

有許多形式為&...; HTML實體&...; 在瀏覽器中顯示為特殊字符。 您甚至可以使用免費的數字，字符代碼： &8233; 。

有一個具有類似unescape功能的Apache庫公共語言：

html = StringEscapeUtils.unescapeHtml4(html);

Answer 3

您可以嘗試如下操作：

System.out.println(inputLine.replaceAll("&nbsp;"," "));

OBS >請注意，您的HTML頁面可能會包含其他字符轉義符，因此此解決方案不太好重用。

您可以參考本文中在此處看到的common lang Apache項目：用Java中的等效字符替換HTML代碼

如何在不使用“”替換部分HTML代碼的情況下使用Java下載完整的網頁？

問題描述

3 個解決方案

解決方案1
1 2016-03-08 17:52:33

解決方案2
0 2016-03-08 17:59:44

解決方案3
0 2016-03-08 18:06:17

如何在不使用“”替換部分HTML代碼的情況下使用Java下載完整的網頁？

問題描述

3 個解決方案

解決方案1 1 2016-03-08 17:52:33

解決方案2 0 2016-03-08 17:59:44

解決方案3 0 2016-03-08 18:06:17

解決方案1
1 2016-03-08 17:52:33

解決方案2
0 2016-03-08 17:59:44

解決方案3
0 2016-03-08 18:06:17