簡體   English   中英

使用jsoup解析論壇中的div標簽

[英]Use jsoup to parse div tags in a forum

我將jSoup庫與Processing結合使用,以從論壇中檢索某些文本。 我只希望在某個線程中抓取某個用戶的帖子。

這些是包含用戶名信息和帖子的div標簽:

用戶名:

<span itemprop="creator name" class="author vcard"><a hovercard-ref="member" hovercard-id="104291" data-ipb="noparse" class="url fn name  ___hover___member _hoversetup" href="[link to user's profile here]" title="" id="anonymous_element_4"><span itemprop="name">djrajio</span></a></span>

帖子:

<div itemprop="commentText" class="post entry-content ">[post text here]</div>

我嘗試按照教程進行操作,但是對div標簽的選擇器語法對我來說不太清楚。

有人可以指出正確的方向,以便能夠從特定用戶處抓取文字嗎?

是包含兩個div標簽的html:

try {

    ArrayList<String> arr = new ArrayList<String>();

    Document page = Jsoup.connect("http://illtellyoulater.com/div.txt").get();

    Elements posts = page.getElementsByAttributeValueStarting("id", "post_id_");

    for(Element post : posts) {
        if( post.getElementsByAttributeValue("itemprop", "creator name").get(0).text().trim().equals("djrajio") ) {
            arr.add(post.getElementsByAttributeValue("itemprop","commentText").get(0).text());
        }
    }


    System.out.println(arr.toString());
}catch(Exception e) {
    e.printStackTrace();
}

僅用於一頁。 如果要訪問該主題的所有頁面或論壇的所有主題,則必須使用搜尋器。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM