[英]How to extract text from all the elements in a webpage individually, using JSoup?
[英]How to extract full URLs from all paragraphs in a webpage using jsoup
如何使用jsoup从网页上的所有段落中提取完整的URL? 我只能提取相对URL。
预期: http://fr.wikipedia.org/wiki/Husni_al-Zaim
: http://fr.wikipedia.org/wiki/Husni_al-Zaim
实际: /Husni_al-Zaim
我的代码:
Elements links = doc.select("p");
Elements linkss = links.select("a");
for (Element link : linkss) {
if (link.text().matches("^[A-Z].+") == true) {
list.add(new NamedLink(link.attr("href"), link.text()));
}
}
使用.absUrl("href")
代替.attr("href")
。 仅当您从网页获取文档或从磁盘解析完整文件时,此方法才起作用(因此,请勿像示例中那样将HTML的部分内容压缩为文本,然后再压缩为文本)。
Document document = Jsoup.connect("http://stackoverflow.com").get();
Elements paragraphLinks = document.select("p a");
for (Element paragraphLink : paragraphLinks) {
String absUrl = paragraphLink.absUrl("href");
// ...
}
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.