使用Java提取HTML標簽

Question

我想從網頁的源代碼中提取各種HTML標簽，有沒有Java中的方法可以做到這一點，還是HTML解析器支持這個？

我想分開所有的HTML標簽。

Answer 1

Java附帶了一個XML解析器，其中包含與JavaScript中的DOM類似的方法：

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文檔構建器可以采用許多不同的輸入（輸入流，原始html字符串等）。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多，網絡neko解析器也很好。

Answer 2

查看CyberNeko HTML Parser 。

Answer 3

您可以使用正則表達式。 如果你的html是有效的XML - 你可以使用XML解析器

Answer 4

您可以編寫自己的util方法來提取標記。

檢查<和/>或>是否有完整標記，並將這些標記寫入另一個文件。

Answer 5

我在一個項目中使用過HTMLParser ，非常滿意。

編輯：如果您檢查示例頁面， 解析器示例幾乎可以滿足您的要求。

使用Java提取HTML標簽

問題描述

5 個解決方案

解決方案1
1 2011-03-21 07:58:51

解決方案2
0 2011-03-21 07:52:55

解決方案3
0 2011-03-21 07:54:10

解決方案4
0 2011-03-21 08:00:19

解決方案5
0 2011-03-21 08:02:05

使用Java提取HTML標簽

問題描述

5 個解決方案

解決方案1 1 2011-03-21 07:58:51

解決方案2 0 2011-03-21 07:52:55

解決方案3 0 2011-03-21 07:54:10

解決方案4 0 2011-03-21 08:00:19

解決方案5 0 2011-03-21 08:02:05

解決方案1
1 2011-03-21 07:58:51

解決方案2
0 2011-03-21 07:52:55

解決方案3
0 2011-03-21 07:54:10

解決方案4
0 2011-03-21 08:00:19

解決方案5
0 2011-03-21 08:02:05