簡體   English   中英

如何使用Java從網頁下載HTML

[英]How to download html from webpage with java

我正在嘗試使用編寫的快速Java程序下載HTML頁面,但我一直收到錯誤消息

<noscript>Your browser does not support JavaScript or JavaScript is not 
   turned on. Please enable JavaScript in your browser.<br></noscript> 

這是即時通訊使用的代碼

public static void main(String[] args) throws Exception {
    System.setProperty("http.proxyHost", "127.0.0.1");
    System.setProperty("https.proxyHost", "127.0.0.1");
    System.setProperty("http.proxyPort", "8888");
    System.setProperty("https.proxyPort", "8888"); 

        URL x=new URL("");
        HttpURLConnection hc=(HttpURLConnection)x.openConnection();

        hc.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 6.0)AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2");


        InputStream is=hc.getInputStream();

        int u=0;
        byte[] kj=new byte[1024];
        while((u=is.read(kj))!=-1)
       {
            System.out.write(kj,0,u);
        }
       is.close();
      }

有沒有人有任何解決方案,實際上將給我源HTML? 謝謝! 注意:我將該URL留空,因為它是私有的

試試Jsoup。 http://jsoup.org/

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();

那是完全正常的。 它放在HTML代碼中,這樣,如果您的瀏覽器不支持/已關閉Javascript,它將顯示它。 否則,它將忽略它。 這是網站如何顯示Javascript關閉的警告。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM