![](/img/trans.png)
[英]Parsing the first <td> value in the first and last <tr> of a <table> with JSoup
[英]Jsoup html parsing not taking TR, TD elements
我有一个带有HTML内容的平面文件。 我正在尝试从中读取文本并从中解析HTML内容。 我正在使用jsoup实现此功能。
我的示例字符串:
<tr>
<td><font color="#6C2DC7">Platform</td>
<td><font color="RED" TITLE='n7k_reg_adxl07_2nd0'>aclxl</td>
<td><font color="RED">0.0</td>
<td><a href="http://wwwinearmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20079/88/89-1/report">200798889-1</a></td>
<td><font color="GREEN">0</td>
<td><font color="RED" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>1</td>
<td><font color="#7D2252"> </td>
<td><font color="#827839"> </td>
不幸的是,它无法正确解析此内容,否则,我将无法使用任何API方法来提取内容。 它的解析如下:
<html>
<head></head>
<body>
<font color="#6C2DC7">Platform<font color="RED" title="n7k_xb45_F3100G_2nd0">qos_100G_FLK_xb_sup3<font color="RED">73.01<a href="http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report">200767943-1</a><font color="GREEN">238<font color="RED" title="Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0">88<font color="#7D2252"> <font color="#827839"> </font></font></font></font></font></font></font>
</body>
</html>
这怎么了 如何使它获得TR,TD元素并继续使用jsoup方法提取所需的内容。
样例代码:
String html = "<html><body><tr><td><font color=\"#6C2DC7\">Platform</td><td><font color=\"RED\" TITLE='n7k_xb45_F3100G_2nd0'>qos_100G_FLK_xb_sup3</td><td><font color=\"RED\">73.01</td><td><a href=\"http://wwwin-earmstools.cisco.com/logs/viewfile.php?files[]=/auto/earmsdata/Earms/testlog-new/20076/79/43-1/report\">200767943-1</a></td><td><font color=\"GREEN\">238</td><td><font color=\"RED\" title='Aborted: 0 Blocked: 0 Skipped: 0 Errored: 0'>88</td><td><font color=\"#7D2252\"> </td><td><font color=\"#827839\"> </td></tr></body></html>";
String charSet = "ISO-8859-1";
Document innerHtml = Jsoup.parse(html,charSet);
TR
和TD
是HTML表标签,但是您输入的HTML确实包含任何<table>
标签,因此JSoup
会忽略这些标签本身,因此只需添加这些标签
String html = "<html><body><table>...</table></body></html>";
如果您无法添加标签,则该标签作为HTML无效,因此需要解析为XML
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.