使用 JSoup 解析兩個不同標簽之間的文本

Question

我有以下 HTML ...

<h3 class="number">
<span class="navigation">
6:55 <a href="/results/result.html" class="under"><b>&raquo;</b></a>
</span>**This is the text I need to parse!**</h3>

我可以使用以下代碼從 h3 標簽中提取文本。

Element h3 = doc.select("h3").get(0);

不幸的是，這給了我該標簽中的所有內容。

6:55 &raquo; This is the text I need to parse!

我可以使用 Jsoup 來解析不同的標簽嗎？ 是否有這樣做的最佳實踐（正則表達式？）

Answer 1

（正則表達式？）

不，您可以閱讀此問題的答案，因此無法使用正則表達式解析HTML。

嘗試這個：

Element h3 = doc.select("h3").get(0);
String h3Text = h3.text();
String spanText = h3.select("span").get(0).text();
String textBetweenSpanEndAndH3End = h3Text.replace(spanText, "");

Answer 2

不，JSoup不是為此而設計的。 它應該解析層次結構。 搜索介於結束標記和開始標記之間的文本，或者相反，對於JSoup來說毫無意義。 這就是正則表達式的用途。

但是，在對字符串進行正則表達式拍攝之前，您當然應該首先使用JSoup將其范圍盡可能縮小。

Answer 3

只需使用 ownText()

   @Test
    void innerTextCase() {
        String sample = "<h3 class=\"number\">\n" +
                "<span class=\"navigation\">\n" +
                "6:55 <a href=\"/results/result.html\" class=\"under\"><b>&raquo;</b></a>\n" +
                "</span>**This is the text I need to parse!**</h3>\n";
        Assertions.assertEquals("**This is the text I need to parse!**", 
                Jsoup.parse(sample).select("h3").first().ownText());
    }

使用 JSoup 解析兩個不同標簽之間的文本

問題描述

3 個解決方案

解決方案1
3 已采納 2013-08-19 16:52:53

解決方案2
0 2013-08-19 16:53:20

解決方案3
0 2022-12-16 04:41:06

使用 JSoup 解析兩個不同標簽之間的文本

問題描述

3 個解決方案

解決方案1 3 已采納 2013-08-19 16:52:53

解決方案2 0 2013-08-19 16:53:20

解決方案3 0 2022-12-16 04:41:06

解決方案1
3 已采納 2013-08-19 16:52:53

解決方案2
0 2013-08-19 16:53:20

解決方案3
0 2022-12-16 04:41:06