[英]Extracting String from HTML source
您好想從源代碼中提取HTML標記之間的字符串,但是通過使用下面給出的代碼,我遇到了錯誤。 有人可以幫我找出錯誤原因嗎?
Pattern pattern = Pattern.compile("/\<body[^>]*\>([^]*)\<\/body/");
Matcher matcher = pattern.matcher(s1);
while (matcher.find()) {
System.out.println( "Found value: " + matcher.group(1).trim() );
}
我收到的錯誤是:“無效的轉義序列”
謝謝
不要使用正則表達式解析html文件。 我建議您使用jsoup
解析器。
String html = "<html><body><h1> Hello, World! </h1></body></html>";
Document doc = Jsoup.parse(html);
String text = doc.body().text();
System.out.println(text);
輸出:
Hello, World!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.