簡體   English   中英

從URL下載XML而不包含特殊字符

[英]Download XML from a URL without having special characters in it

這是我下載Xml的代碼

import org.apache.commons.io.FileUtils;

String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml";
URL url = new URL(fileURL);
File file = new File("/home/user1/Downloads/calm-20160528.xml");
FileUtils.copyURLToFile(url, file);

但是此下載的XML具有這樣的特殊字符

</td>
                <td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap">437,556 

我想擺脫這些特殊字符,下載此XML本身。

這不是FileUtils.copyURLToFile的問題。 XML本身包含這些字符。 似乎有些XML標記包含html,並且引用該標記是為了不與xml混淆。 您必須取消對html的引用。

該文件是有效的XML文檔,包括轉義的XML片段。 因此它是“按原樣”有效的。 如果要處理它,請使用XML解析器並取消轉義轉義的XML片段。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM