使用jSoup解析最里面的html標簽

Question

這是我的代碼。

String tags="<html><head></head><body><table><tr><td>1</td></tr><tr><td><table><tr><td>3</td><td>4</td></tr></table></td></tr></table><body></html>";
        Document document = Jsoup.parse(tags);
        for(int i=0;i<document.body().childNodes().size();i++)
        {
            if(!document.body().childNodes().get(i).nodeName().startsWith("#"))
            {
                System.out.println("1st Level Nodes:"+document.body().childNodes().get(i).nodeName());
                while(document.body().childNodes().get(i).childNodes().size()>1)
                {
                    System.out.println("2nd Level: "+document.body().childNodes().get(i).childNodes().get(0).nodeName());
                }
            }
        }

如何解析按標簽返回標簽的HTML。 循環未覆蓋最里面的標簽。

這是格式正確的html代碼。 將所有標簽解析到最里面。

<html>
<head></head>
<body>
<table>
    <tr>
        <td>1</td>
    </tr>

    <tr>
        <td>
            <table>
            <tr>
                <td>3</td>
                <td>4</td>
            </tr>
            </table>
        </td>
    </tr>
</table>
<body>
</html>

我想獲取所有標記之間的html，作為我在html代碼中顯示的html層次結構。 所以我喜歡按照父子順序依次獲取所有標簽。

Answer 1

如果僅需要標簽，則可以在此處使用：

String tags = "<html><head></head><body><table><tr><td>1</td></tr><tr><td><table><tr><td>3</td><td>4</td></tr></table></td></tr></table><body></html>";
Document doc = Jsoup.parse(tags);


for( Element e : doc.select("*") // you can use 'doc.getAllElements()' here too
{
    System.out.println(e.tag());
}

輸出：

#root
html
head
body
table
tbody
tr
td
tr
td
table
tbody
tr
td
td

使用jSoup解析最里面的html標簽

問題描述

1 個解決方案

解決方案1
0 2012-09-13 12:39:59

使用jSoup解析最里面的html標簽

問題描述

1 個解決方案

解決方案1 0 2012-09-13 12:39:59

解決方案1
0 2012-09-13 12:39:59