如何讀取zip文件中的htm文件？

Question

我有一個包含Index.htm的zip文件。 我應該閱讀Index.htm的內容，並在其中找到一個日期（ 2011年12月 ），並使用該日期創建一個目錄，然后在該目錄中提取zip文件。

這是html文件：

<HTML>    
  <HEAD></HEAD>    
  <BODY>    
  <A Name="TopOfPage"></A>    
  <TABLE Width="100%" Border="0" CellPadding="0" CellSpacing="0">    
   <TR> 
     <TD Width="30%"><A HRef="HeaderTxt/HetBCFI.htm">Het B.C.F.I.</A></TD>    
   </TR>      
  </TABLE>    
  <TABLE Width="100%" Border="0" CellPadding="0" CellSpacing="0">
   <TR> 
    <TD RowSpan="2" Width="10"></TD>
    <TD Width="70%"><STRONG><FONT Face="Arial" Size="2">Gecommentarieerd   Geneesmiddelenrepertorium</FONT></STRONG></TD> 
    <TD Width="29%" Align="Right" Class= "Datum">&nbsp;
   December 2011&nbsp;&nbsp;
  </TD>
  <TD Rowspan="2" Width="10"></TD>
 </TR>
</TABLE> </BODY> </HTML>

Answer 1

嘗試這個，

使用java.util.zip包讀取html
使用一些html解析器（我建議使用JSoup ）來獲取日期字符串。 這是對您有幫助的鏈接。

獲得日期字符串后，創建所需的目錄。

編輯：要刪除  ，您可以執行以下操作之一，

使用包含 的字符串創建另一個文檔元素  並執行以下操作
document.select(":containsOwn(\ )").remove(); （從這里拍攝）
使用關注（假設您要清除的字符串是htmlString ）
Jsoup.parse(htmlString).text();
使用String的replaceAll()函數擺脫  。

Answer 2

幾個步驟：

使用java.util.zip包並創建一個解壓縮的流。
使用XML解析器（如JSoup）遍歷節點，然后...
使用正則表達式或帶有日期解析器的正則表達式（例如SimpleDateFormat）來選擇日期。

這假定您要查找的日期始終在文本節點中。

Answer 3

這是我使用的正確的最終代碼：多謝您提供有用的提示

public static String getDateWithinHtmlInsideZipFile(File archive) {
      ZipFile zp = new ZipFile(archive);
      InputStream in = zp.getInputStream (zp.getEntry ("Index.htm"));

      Document doc = Jsoup.parse(in, "UTF-8", "");

    return doc.body().getElementsByClass("Datum").text().trim();
}

如何讀取zip文件中的htm文件？

問題描述

3 個解決方案

解決方案1
3 2012-01-16 15:18:33

解決方案2
2 2012-01-16 15:17:08

解決方案3
1 已采納 2012-01-18 10:43:48

如何讀取zip文件中的htm文件？

問題描述

3 個解決方案

解決方案1 3 2012-01-16 15:18:33

解決方案2 2 2012-01-16 15:17:08

解決方案3 1 已采納 2012-01-18 10:43:48

解決方案1
3 2012-01-16 15:18:33

解決方案2
2 2012-01-16 15:17:08

解決方案3
1 已采納 2012-01-18 10:43:48