用於Java中的html文本代碼的正則表達式

Question

我有一個html文本文件，標題我想提取內部的文本

例：

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

我想從HTML代碼中僅提取以下文本：

消防安全，關於本書，1，本書的內容

我嘗試過很多東西：

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

其中input是html數據。

沒有在控制台上得到任何結果或有時是我只得到href :(

我該如何解決這個問題？

讓我知道！ 謝謝！

Answer 1

我強烈建議使用HTML解析器，如TagSoup ， Jericho ， NekoHTML ， HTML Parser等

用於Java中的html文本代碼的正則表達式

問題描述

1 個解決方案

解決方案1
3 2012-12-18 07:08:07

用於Java中的html文本代碼的正則表達式

問題描述

1 個解決方案

解決方案1 3 2012-12-18 07:08:07

解決方案1
3 2012-12-18 07:08:07