jsoup標簽提取問題

Question

測試：示例
test1：example1

  Elements size = doc.select("div:contains(test:)");

我如何從這個html標記中提取值example和example1。...使用jsoup ..

Answer 1

由於此HTML的語義不足以實現您的最終目的（ <br>不能有子對象，而:不是HTML），因此您無法使用Jsoup之類的HTML解析器做很多事情。 HTML解析器無意執行特定的文本提取/標記化工作。

最好的辦法是使用Jsoup獲取<div>的HTML內容，然后使用常規的java.lang.String或java.util.Scanner方法進一步提取該內容。

這是一個啟動示例：

String html = "<div style=\"height:240px;\"><br>test: example<br>test1:example1</div>";
Document document = Jsoup.parse(html);
Element div = document.select("div[style=height:240px;]").first();

String[] parts = div.html().split("<br />"); // Jsoup transforms <br> to <br />.
for (String part : parts) {
    int colon = part.indexOf(':');
    if (colon > -1) {
        System.out.println(part.substring(colon + 1).trim());
    }
}

這導致

example
example1

如果我是HTML作者，那么我將為此使用定義列表。 例如

<dl id="mydl">
     <dt>test:</dt><dd>example</dd>
     <dt>test1:</dt><dd>example1</dd>
</dl>

這更具語義，因此更易於解析：

String html = "<dl id=\"mydl\"><dt>test:</dt><dd>example</dd><dt>test1:</dt><dd>example1</dd></dl>";
Document document = Jsoup.parse(html);
Elements dts = document.select("#mydl dd");
for (Element dt : dts) {
    System.out.println(dt.text());
}

jsoup標簽提取問題

問題描述

1 個解決方案

解決方案1
3 2010-08-11 21:49:15

jsoup標簽提取問題

問題描述

1 個解決方案

解決方案1 3 2010-08-11 21:49:15

解決方案1
3 2010-08-11 21:49:15