[英]Extract data with regex from html
我想从此示例html中提取项目,更具体地说,我想分离以下项目:algp1,PRODUCTION 50733 GEN_APPL KANTOOR
<table width="95%" border="1">
<tr><td colspan=3><a name="algp1"></a><img src="menu/db2inst.jpg"> <font color="#FF0000" size="+1">algp1</font> (PRODUCTION, 50733)</td></tr>
<tr><td width="20%" valign=top><a name="GENAPPLP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> GEN_APPL</font></b><br>(GENAPPLP)</td><td width="15%" valign=top>PARK</td><td width="70%" valign=top><font size="2">BOOKINGCARPARKING‚ CUSTOMERS‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
<tr><td width="20%" valign=top><a name="KANTOORP"></a><img src="menu/db2db.jpg"><font color="#00CC00"><b> KANTOOR</font></b><br>(KANTOORP)</td><td width="15%" valign=top>CDDB</td><td width="70%" valign=top><font size="2">BATIMENTS‚ BATIMENTS_EXC‚ OFFICES‚ OFFICES_EXC‚ RECETTES‚ RECETTES_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>IDR</td><td width="70%" valign=top><font size="2">ADMINISTRATION‚ ADMINISTRATION_EXC‚ ARROND‚ ARROND_EXC‚ BUREAU‚ BUREAU_EXC‚ CODEX‚ CODEX_EXC‚ COMMUNE‚ COMMUNE_EXC‚ COMPETENCE‚ COMPETENCE_EXC‚ COMPTE‚ COMPTE_EXC‚ LNKBCC‚ LNKBCC_EXC‚ LNKBCI‚ LNKBCI_EXC‚ LNKBPC‚ LNKBPC_EXC‚ LNKBS‚ LNKBS_EXC‚ LNKCBRR‚ LNKCBRR_EXC‚ LNKCS‚ LNKCS_EXC‚ MAP_CP_BUREAU‚ PAYS‚ PAYS_EXC‚ PROVINCE‚ PROVINCE_EXC‚ RANGE_RUE‚ RANGE_RUE_EXC‚ REGION‚ REGION_EXC‚ RUE‚ RUE_EXC‚ SERVICE‚ SERVICE_EXC‚ TPCODEX‚ TPCODEX_EXC‚ TPCOMPTE‚ TPCOMPTE_EXC‚ </font></td></tr>
<tr><td width="20%" valign=top></td><td width="15%" valign=top>RDC</td><td width="70%" valign=top><font size="2">DBREL_SCHEMA_RDCPROJECT‚ DBVERSION‚ </font></td></tr>
</table>
查看JTidy 。 它将解析HTML,并为您提供DOM接口进行迭代。
我强烈建议除了最简单的情况外,不要对所有其他情况都使用正则表达式。 HTML是不规则的,并且没有尽头的情况使您绊倒。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.