如何使用jsoup从网页的所有段落中提取完整的URL

Question

如何使用jsoup从网页上的所有段落中提取完整的URL？ 我只能提取相对URL。

预期： http://fr.wikipedia.org/wiki/Husni_al-Zaim ： http://fr.wikipedia.org/wiki/Husni_al-Zaim

实际： /Husni_al-Zaim

我的代码：

    Elements links = doc.select("p");
    Elements linkss = links.select("a");

    for (Element link : linkss) {
        if (link.text().matches("^[A-Z].+") == true) {
            list.add(new NamedLink(link.attr("href"), link.text()));
        }
    }

Answer 1

使用.absUrl("href")代替.attr("href") 。 仅当您从网页获取文档或从磁盘解析完整文件时，此方法才起作用（因此，请勿像示例中那样将HTML的部分内容压缩为文本，然后再压缩为文本）。

Document document = Jsoup.connect("http://stackoverflow.com").get();
Elements paragraphLinks = document.select("p a");
for (Element paragraphLink : paragraphLinks) {
    String absUrl = paragraphLink.absUrl("href");
    // ...
}

如何使用jsoup从网页的所有段落中提取完整的URL

问题描述

1 个解决方案

解决方案1
1 2011-03-26 13:46:06

如何使用jsoup从网页的所有段落中提取完整的URL

问题描述

1 个解决方案

解决方案1 1 2011-03-26 13:46:06

解决方案1
1 2011-03-26 13:46:06