繁体   English   中英

Jsoup html解析不采用TR,TD元素

[英]Jsoup html parsing not taking TR, TD elements

我有一个带有HTML内容的平面文件。 我正在尝试从中读取文本并从中解析HTML内容。 我正在使用jsoup实现此功能。

我的示例字符串:

  <tr>
     <td><font color="#6C2DC7">Platform</td>
     <td><font color="RED" TITLE='n7k_reg_adxl07_2nd0'>aclxl</td>
     <td><font color="RED">0.0</td>
     <td><a href="http://wwwinearmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20079/88/89-1/report">200798889-1</a></td>
     <td><font color="GREEN">0</td>
     <td><font color="RED" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>1</td>
     <td><font color="#7D2252">&nbsp;</td>
     <td><font color="#827839">&nbsp;</td>

不幸的是,它无法正确解析此内容,否则,我将无法使用任何API方法来提取内容。 它的解析如下:

<html>
<head></head>
<body>
<font color="#6C2DC7">Platform<font color="RED" title="n7k_xb45_F3100G_2nd0">qos_100G_FLK_xb_sup3<font color="RED">73.01<a href="http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report">200767943-1</a><font color="GREEN">238<font color="RED" title="Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0">88<font color="#7D2252">&nbsp;<font color="#827839">&nbsp;</font></font></font></font></font></font></font>
</body>
</html>

这怎么了 如何使它获得TR,TD元素并继续使用jsoup方法提取所需的内容。

样例代码:

String html = "<html><body><tr><td><font color=\"#6C2DC7\">Platform</td><td><font color=\"RED\" TITLE='n7k_xb45_F3100G_2nd0'>qos_100G_FLK_xb_sup3</td><td><font color=\"RED\">73.01</td><td><a href=\"http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report\">200767943-1</a></td><td><font color=\"GREEN\">238</td><td><font color=\"RED\" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>88</td><td><font color=\"#7D2252\">&nbsp;</td><td><font color=\"#827839\">&nbsp;</td></tr></body></html>";
String charSet = "ISO-8859-1";
Document innerHtml = Jsoup.parse(html,charSet);

TRTD是HTML表标签,但是您输入的HTML确实包含任何<table>标签,因此JSoup会忽略这些标签本身,因此只需添加这些标签

String html = "<html><body><table>...</table></body></html>";

如果您无法添加标签,则该标签作为HTML无效,因此需要解析为XML

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM