簡體   English   中英

jsoup標簽提取問題

[英]jsoup tag extraction problem


測試:示例
test1:example1
  Elements size = doc.select("div:contains(test:)"); 

我如何從這個html標記中提取值example和example1。...使用jsoup ..

由於此HTML的語義不足以實現您的最終目的( <br>不能有子對象,而:不是HTML),因此您無法使用Jsoup之類的HTML解析器做很多事情。 HTML解析器無意執行特定的文本提取/標記化工作。

最好的辦法是使用Jsoup獲取<div>的HTML內容,然后使用常規的java.lang.Stringjava.util.Scanner方法進一步提取該內容。

這是一個啟動示例:

String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();

String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
    int colon = part.indexOf(':');
    if (colon > -1) {
        System.out.println(part.substring(colon + 1).trim());
    }
}

這導致

example
example1

如果我是HTML作者,那么我將為此使用定義列表 例如

<dl id="mydl">
     <dt>test:</dt><dd>example</dd>
     <dt>test1:</dt><dd>example1</dd>
</dl>

這更具語義,因此更易於解析:

String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
    System.out.println(dt.text());
}

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM