使用Java提取HTML标签

Question

我想从网页的源代码中提取各种HTML标签，有没有Java中的方法可以做到这一点，还是HTML解析器支持这个？

我想分开所有的HTML标签。

Answer 1

Java附带了一个XML解析器，其中包含与JavaScript中的DOM类似的方法：

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文档构建器可以采用许多不同的输入（输入流，原始html字符串等）。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多，网络neko解析器也很好。

Answer 2

查看CyberNeko HTML Parser 。

Answer 3

您可以使用正则表达式。 如果你的html是有效的XML - 你可以使用XML解析器

Answer 4

您可以编写自己的util方法来提取标记。

检查<和/>或>是否有完整标记，并将这些标记写入另一个文件。

Answer 5

我在一个项目中使用过HTMLParser ，非常满意。

编辑：如果您检查示例页面， 解析器示例几乎可以满足您的要求。

使用Java提取HTML标签

问题描述

5 个解决方案

解决方案1
1 2011-03-21 07:58:51

解决方案2
0 2011-03-21 07:52:55

解决方案3
0 2011-03-21 07:54:10

解决方案4
0 2011-03-21 08:00:19

解决方案5
0 2011-03-21 08:02:05

使用Java提取HTML标签

问题描述

5 个解决方案

解决方案1 1 2011-03-21 07:58:51

解决方案2 0 2011-03-21 07:52:55

解决方案3 0 2011-03-21 07:54:10

解决方案4 0 2011-03-21 08:00:19

解决方案5 0 2011-03-21 08:02:05

解决方案1
1 2011-03-21 07:58:51

解决方案2
0 2011-03-21 07:52:55

解决方案3
0 2011-03-21 07:54:10

解决方案4
0 2011-03-21 08:00:19

解决方案5
0 2011-03-21 08:02:05