繁体   English   中英

如何使用Java从网页下载HTML

[英]How to download html from webpage with java

我正在尝试使用编写的快速Java程序下载HTML页面,但我一直收到错误消息

<noscript>Your browser does not support JavaScript or JavaScript is not 
   turned on. Please enable JavaScript in your browser.<br></noscript> 

这是即时通讯使用的代码

public static void main(String[] args) throws Exception {
    System.setProperty("http.proxyHost", "127.0.0.1");
    System.setProperty("https.proxyHost", "127.0.0.1");
    System.setProperty("http.proxyPort", "8888");
    System.setProperty("https.proxyPort", "8888"); 

        URL x=new URL("");
        HttpURLConnection hc=(HttpURLConnection)x.openConnection();

        hc.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 6.0)AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.121 Safari/535.2");


        InputStream is=hc.getInputStream();

        int u=0;
        byte[] kj=new byte[1024];
        while((u=is.read(kj))!=-1)
       {
            System.out.write(kj,0,u);
        }
       is.close();
      }

有没有人有任何解决方案,实际上将给我源HTML? 谢谢! 注意:我将该URL留空,因为它是私有的

试试Jsoup。 http://jsoup.org/

Document doc = Jsoup.connect("http://en.wikipedia.org/").get();
String htmlString = doc.html();

那是完全正常的。 它放在HTML代码中,这样,如果您的浏览器不支持/已关闭Javascript,它将显示它。 否则,它将忽略它。 这是网站如何显示Javascript关闭的警告。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM