簡體   English   中英

用於Java中的html文本代碼的正則表達式

[英]Regex for an html text code in Java

我有一個html文本文件,標題我想提取內部的文本

例:

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

我想從HTML代碼中僅提取以下文本:

消防安全,關於本書,1,本書的內容

我嘗試過很多東西:

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

其中input是html數據。

沒有在控制台上得到任何結果或有時是我只得到href :(

我該如何解決這個問題?

讓我知道! 謝謝!

我強烈建議使用HTML解析器,如TagSoupJerichoNekoHTMLHTML Parser

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM