![](/img/trans.png)
[英]Use jsoup to parse XML - prevent jsoup from “cleaning” <link> tags
[英]Use jsoup to parse div tags in a forum
我将jSoup库与Processing结合使用,以从论坛中检索某些文本。 我只希望在某个线程中抓取某个用户的帖子。
这些是包含用户名信息和帖子的div标签:
用户名:
<span itemprop="creator name" class="author vcard"><a hovercard-ref="member" hovercard-id="104291" data-ipb="noparse" class="url fn name ___hover___member _hoversetup" href="[link to user's profile here]" title="" id="anonymous_element_4"><span itemprop="name">djrajio</span></a></span>
帖子:
<div itemprop="commentText" class="post entry-content ">[post text here]</div>
我尝试按照本教程进行操作,但是对div标签的选择器语法对我来说不太清楚。
有人可以指出正确的方向,以便能够从特定用户处抓取文字吗?
这是包含两个div标签的html:
try {
ArrayList<String> arr = new ArrayList<String>();
Document page = Jsoup.connect("http://illtellyoulater.com/div.txt").get();
Elements posts = page.getElementsByAttributeValueStarting("id", "post_id_");
for(Element post : posts) {
if( post.getElementsByAttributeValue("itemprop", "creator name").get(0).text().trim().equals("djrajio") ) {
arr.add(post.getElementsByAttributeValue("itemprop","commentText").get(0).text());
}
}
System.out.println(arr.toString());
}catch(Exception e) {
e.printStackTrace();
}
仅用于一页。 如果要访问该主题的所有页面或论坛的所有主题,则必须使用搜寻器。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.