[英]How can I use a regex to remove HTML tags from a String?
<tr class='list odd'>
<td class="list" align="center">Do</td>
<td class="list" align="center">7.7.</td><td class="list" align="center">3 - 4</td>
<td class="list" align="center">---</td>
<td class="list" align="center"><s>Q1e14</s></td>
<td class="list" align="center">Arbeitsauftrag:</td>
<td class="list" align="center">entfällt</td></tr>
使用像Jsoup这样的适当的 HTML 解析器,而不是字符串操作或正则表达式。 Jsoup 为提取和操作 HTML 数据提供了一个非常方便的 API,并且使用起来很直观。 使用 Jsoup,您的代码可能如下所示:
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Example2 {
public static void main(String[] args) {
String html =
"<html>\n"
+ "<head></head>"
+ "<body>"
+ " <table>"
+ " <tr class='list odd'>\n"
+ " <td class=\"list\" align=\"center\">Do</td>\n"
+ " <td class=\"list\" align=\"center\">7.7.</td><td class=\"list\" align=\"center\">3 - 4</td>\n"
+ " <td class=\"list\" align=\"center\">---</td>\n"
+ " <td class=\"list\" align=\"center\"><s>Q1e14</s></td>\n"
+ " <td class=\"list\" align=\"center\">Arbeitsauftrag:</td>\n"
+ " <td class=\"list\" align=\"center\">entfällt</td></tr>\n"
+ " </table>"
+ "</body>\n"
+ "</html>";
Document doc = Jsoup.parse(html);
Elements tds = doc.select("td");
tds.forEach(td -> System.out.println(td.text()));
}
}
输出:
Do
7.7.
3 - 4
---
Q1e14
Arbeitsauftrag:
entfällt
Maven回购:
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.15.2</version>
</dependency>
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.