簡體 English 中英

使用jpedal從html提取超鏈接？ --java

[英]using jpedal to extract hyperlinks from html? --java

原文 2011-10-05 19:21:26 2 1 java/ html/ parsing/ dom/ jpedal

Java中的JPedal庫通常用於將pdf轉換為XML或HTML。 但是，我需要知道是否可以使用JPedal庫API從HTML5文檔中提取數據並將其保存為XML？ 還有其他可能的替代方法嗎？

另外，我正在嘗試使用Java解析HTML5文檔並將其存儲為XML。 有什么好的解決方案可以找到特定的標簽並從其中渲染XML？

請讓我知道。 謝謝。

1 個解決方案

那里有許多Java HTML解析器，但是我建議使用來自validator.nu的HTML5解析器，可以從以下網址下載： http : //about.validator.nu/htmlparser/ 。

由HTML5的主要角色之一，Mozilla的Henri Sivonen使用HTML5解析器算法編寫而成，您將找不到更可靠的HTML解析器，它會創建可使用標准XML工具進行操作並查詢超鏈接的真實DOM。 XPath。 有一些示例說明如何將XSLT轉換與其一起使用，以及如何獲得所創建DOM的XML序列化。

如何使用JPedal從pdf文件中提取數據？

[英]How to extract data from a pdf file using JPedal?

使用JAVA從HTML中提取所有圖像

[英]Extract All Images From HTML Using JAVA

使用Java從HTML提取數據

[英]Extract data from HTML using java

使用java從html文件中提取文本

[英]Extract text from html file using java

使用純Java從HTML文檔中使用xpath提取內容

[英]Extract content using xpath from an HTML doc using pure Java

無法在Java中使用jsoup從html提取內容？

[英]unable to extract contents from html using jsoup in java?

使用JAVA中的JSOUP從HTML中提取CSS樣式

[英]Extract CSS Styles from HTML using JSOUP in JAVA

使用正則表達式Java從html源提取文本

[英]Extract text from html source using regular expressions java

如何使用Java從網站提取HTML表數據？

[英]How to extract HTML table data using Java from a website?

如何使用Selenium和Java從html提取文本2？

[英]How to extract the text 2 from the html using Selenium and Java?

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 如何使用JPedal從pdf文件中提取數據？使用JAVA從HTML中提取所有圖像使用Java從HTML提取數據使用java從html文件中提取文本使用純Java從HTML文檔中使用xpath提取內容無法在Java中使用jsoup從html提取內容？使用JAVA中的JSOUP從HTML中提取CSS樣式使用正則表達式Java從html源提取文本如何使用Java從網站提取HTML表數據？如何使用Selenium和Java從html提取文本2？

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM