用于Java中的html文本代码的正则表达式

Question

我有一个html文本文件，标题我想提取内部的文本

例：

<h1 class="title"><a href="dtb.htm#rgn_txt_0001_0001">Fire Safety</a></h1>
<h1><a href="dtb.htm#rgn_txt_0002_0001">About this book</a></h1>
<h1><a href="dtb.htm#rgn_par_0002_0008">1</a></h1>
<h1><a href="dtb.htm#rgn_txt_0003_0001">Contents of this book</a></h1>

我想从HTML代码中仅提取以下文本：

消防安全，关于本书，1，本书的内容

我尝试过很多东西：

Pattern pattern = Pattern.compile("<a[^>]href\\s=\\s*\"\\s*([^\"]*)");
Matcher matcher = pattern.matcher(input);

其中input是html数据。

没有在控制台上得到任何结果或有时是我只得到href :(

我该如何解决这个问题？

让我知道！ 谢谢！

Answer 1

我强烈建议使用HTML解析器，如TagSoup ， Jericho ， NekoHTML ， HTML Parser等

用于Java中的html文本代码的正则表达式

问题描述

1 个解决方案

解决方案1
3 2012-12-18 07:08:07

用于Java中的html文本代码的正则表达式

问题描述

1 个解决方案

解决方案1 3 2012-12-18 07:08:07

解决方案1
3 2012-12-18 07:08:07