如何使用 JSoup 獲取頁面中的所有 url 圖片？

Question

我正在使用 JSoup 來抓取頁面。 我通常需要在頁面或頁面中獲取所有 url 的圖像，然后放入ArrayList<String> 。 假設如下文件：

<!DOCTYPE html>
<html>
  <head>
    <meta charset="utf-8">
    <title>News Page</title>
  </head>
  <body>
    <div class="news">
      <div class="new">
        <div class="image">
          <img src="../images/img01.jpg" />
        </div>
        <div class="info">
          <p class="title">
            Grumpy wizards make toxic brew for the evil Queen and Jack.
          </p>
        </div>
      </div>
      <div class="new">
        <div class="image">
          <img src="../images/img02.jpg" />
        </div>
        <div class="info">
          <p class="title">
            The quick brown fox jumps over the lazy dog.
          </p>
        </div>
      </div>
      <div class="new">
        <div class="image">
          <img src="../images/img03.jpg" />
        </div>
        <div class="info">
          <p class="title">
            Pack my box with five dozen liquor jugs.
          </p>
        </div>
      </div>
     </div>
  </body>
</html>

我是這樣做的：

Document document = Jsoup.parse(html);
Elements images = document.select(img);

ArrayList<String> binaryUrls = new ArrayList<String>();
for(Element image : images) {
    binaryUrls.add(image.absUrl("src"));
}

結果：

['http//www.newssite.com/images/img01.jpg', 'http//www.newssite.com/images/img02.jpg', 'http//www.newssite.com/images/img03.jpg']

它有效，但我想知道是否存在捷徑，只需使用 Jsoup 即可。

在生產環境中，我們還使用了 Java 6。 如果可能的話，我喜歡使用 lambda 了解 Java 6 模式和 Java 8 模式。

Answer 1

沒有對 Java6 的建議。

在 Java 8 中使用 Lambda：

ArrayList<String> binaryUrls = Jsoup.parse(html).select("img")
    .stream().map(p -> p.absUrl("src"))
    .collect(Collectors.toCollection(ArrayList::new));

或者如果返回類型可以只是List<String> ：

List<String> binaryUrls = Jsoup.parse(html).select("img")
    .stream().map(p -> p.absUrl("src"))
    .collect(Collectors.toList());

如何使用 JSoup 獲取頁面中的所有 url 圖片？

問題描述

1 個解決方案

解決方案1
1 已采納 2015-09-17 02:18:24

如何使用 JSoup 獲取頁面中的所有 url 圖片？

問題描述

1 個解決方案

解決方案1 1 已采納 2015-09-17 02:18:24

解決方案1
1 已采納 2015-09-17 02:18:24