Java Jsoup：提取所有文本

Question

我有下面的代碼。 doc.body.text（）語句不輸出style和script標簽內的文本。 我閱讀了.text（）函數代碼，它查找TextNode的所有實例。 什么是Jsoup中的TextNode。

以及為什么腳本文本未包含在.text（）輸出中。

String contex = "<html><body><style>style</style><div>div</div><script>script</script><p>paragraph</p>body</body></html>";
    Document doc = Jsoup.parse(contex, "UTF-8");
    String text = doc.body().text();
    System.out.println("Test text : " + text);

輸出：段落正文

Answer 1

為此，您需要使用org.jsoup.select.Elements來解析<script>類的標簽。

String contex = "<html><body><style>style</style><div>div</div><script>scripts</script><p>paragraph</p><p>body</p><script>787878</script></body></html>";
        Document doc =Jsoup.parse(contex, "UTF-8");
         Elements scriptElements = doc.getElementsByTag("script");

         for (Element el :scriptElements ){                
                for (DataNode dn : el.dataNodes()) {
                    System.out.println(dn.getWholeData());
                }
          }

OP：

scripts
787878

Answer 2

以及為什么腳本文本未包含在.text（）輸出中。

因為script和style具有數據，而不是文本。

要從script的數據中獲取數據，請使用getElementsByTag

Elements scriptElements = doc.getElementsByTag("script");

並通過getWholeData訪問

for (Element element :scriptElements ){                
    for (DataNode node : element.dataNodes()) {
        System.out.println(node.getWholeData());
    }
    System.out.println("-------------------");            
}

根據源代碼，對於style或script標記，將其視為dataNode而不是textNode

 void insert(Token.Character characterToken) { Node node; // characters in script and style go in as datanodes, not text nodes final String tagName = currentElement().tagName(); final String data = characterToken.getData(); if (characterToken.isCData()) node = new CDataNode(data); else if (tagName.equals("script") || tagName.equals("style")) node = new DataNode(data); else node = new TextNode(data); currentElement().appendChild(node); // doesn't use insertNode, because we don't foster these; and will always have a stack. }

Java Jsoup：提取所有文本

問題描述

2 個解決方案

解決方案1
1 2017-12-29 06:27:36

解決方案2
1 2017-12-29 06:30:04

Java Jsoup：提取所有文本

問題描述

2 個解決方案

解決方案1 1 2017-12-29 06:27:36

解決方案2 1 2017-12-29 06:30:04

解決方案1
1 2017-12-29 06:27:36

解決方案2
1 2017-12-29 06:30:04