如何在Jsoup中删除部分网页？

Question

我目前正在研究Jsoup。 我已经收到一个Element content看起来像

<p>123</p>
<p>456</p>
<p>789</p>
<p>abc</p>
<p>efg</p>
....

efg行之后有几行，但是我希望删除efg行之后的所有行，并且我希望结果是一个Element（不是Elements）

我尝试了几种方法，例如

content.children().removeAll(content.getElementsByIndexGreaterThan(content.children().indexOf(content.select("p:contains(efg)"))));

要么

content.getElementsByIndexGreaterThan(content.select("p:contains(efg)")).remove();

不幸的是，它们都不起作用。 有谁对此有更好的解决方案？ 感谢您阅读这篇文章。

Answer 1

<div> 
 <p>123</p> 
 <p>456</p> 
 <p>789</p> 
 <p>abc</p> 
 <p>efg</p> 
 <p>111</p> 
 <p>222</p> 
 <p>333</p> 
 <p>444</p> 
</div>

public static void main(String[] args) throws Exception {
    String html = new String(Files.readAllBytes(Paths.get("input.html")));
    Document doc = Jsoup.parse(html);
    Element content = doc.select("div").first();

    Element lastValidElement = content.select("p:contains(efg)").first();
    int lastValidElementIndex = content.children().indexOf(lastValidElement);
    content.getElementsByIndexGreaterThan(lastValidElementIndex).remove();
    System.out.println(content);
}

<div> 
 <p>123</p> 
 <p>456</p> 
 <p>789</p> 
 <p>abc</p> 
 <p>efg</p>     
</div>

如何在Jsoup中删除部分网页？

问题描述

1 个解决方案

解决方案1
1 已采纳 2016-01-17 14:46:11

如何在Jsoup中删除部分网页？

问题描述

1 个解决方案

解决方案1 1 已采纳 2016-01-17 14:46:11

解决方案1
1 已采纳 2016-01-17 14:46:11