從HTML源提取字符串

Question

您好想從源代碼中提取HTML標記之間的字符串，但是通過使用下面給出的代碼，我遇到了錯誤。 有人可以幫我找出錯誤原因嗎？

Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
  System.out.println( "Found value: " + matcher.group(1).trim() );
}

我收到的錯誤是：“無效的轉義序列”

謝謝

Answer 1

不要使用正則表達式解析html文件。 我建議您使用jsoup解析器。

String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);

輸出：

Hello, World!

從HTML源提取字符串

問題描述

1 個解決方案

解決方案1
2 已采納 2015-04-19 08:50:04

從HTML源提取字符串

問題描述

1 個解決方案

解決方案1 2 已采納 2015-04-19 08:50:04

解決方案1
2 已采納 2015-04-19 08:50:04