繁体   English   中英

如何用Jsoup放弃部分网页?

[英]How to abandon part of webpage with Jsoup?

我目前正在使用Jsoup来解析一个html。代码很简单:

Document doc = null;
    try{
        doc = Jsoup.connect(link).get();    
    }
    catch (Exception e) {
        //System.out.println("Some error occured.");
        textView.setText(e.getMessage());
    }

它确实给了我想要的网页,稍后我可以使用它的 getElementsByTag 方法等从该网页中提取我需要的数据。 但是,我只想使用网页的一部分,例如,我希望放弃 <. -- / foo --> 在我的网页中,(实际上 < 和之间没有空格。?但我不能在这里输入,)有没有办法在该字符串之后放弃网页并获取新文档只有我想要的部分,我查了食谱。 但它似乎只处理网页的结构。 所以我不太确定是否可以执行字符串删除之类的操作。 感谢您的阅读。

您可以使用 Document doc = Jsoup.parse(html),其中 HTML 是页面 HTML。即首先使用 HTML

   Connection connect = Jsoup.connect(url);
   Connection.Response response = connect.execute();
   String html = response.body();

然后执行您需要的任何操作(例如在标记后剪切 HTML,但添加必要的关闭 HTML 标签),然后

   Document doc = Jsoup.parse(html)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM