簡體   English   中英

使用Java提取HTML標簽

[英]Extraction of HTML Tags using Java

我想從網頁的源代碼中提取各種HTML標簽,有沒有Java中的方法可以做到這一點,還是HTML解析器支持這個?

我想分開所有的HTML標簽。

Java附帶了一個XML解析器,其中包含與JavaScript中的DOM類似的方法:

DocumentBuilder builder = DocumentBuilderFactory.newDocumentBuilder();
Document doc = builder.parse(html);
doc.getElementById("someId");
doc.getElementsByTagName("div");
doc.getChildNodes();

文檔構建器可以采用許多不同的輸入(輸入流,原始html字符串等)。

http://download.oracle.com/javase/1.5.0/docs/api/org/w3c/dom/Document.html

如果您需要更多,網絡neko解析器也很好。

您可以使用正則表達式。 如果你的html是有效的XML - 你可以使用XML解析器

您可以編寫自己的util方法來提取標記。

檢查</>>是否有完整標記,並將這些標記寫入另一個文件。

我在一個項目中使用過HTMLParser ,非常滿意。

編輯:如果您檢查示例頁面, 解析器示例幾乎可以滿足您的要求。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM