[英]how to Download a XML file from a URL by Escaping Special Characters like < > $amp; etc?
[英]Download XML from a URL without having special characters in it
這是我下載Xml的代碼
import org.apache.commons.io.FileUtils;
String fileURL = "https://www.sec.gov/Archives/edgar/data/16160/000001616016000061/calm-20160528.xml";
URL url = new URL(fileURL);
File file = new File("/home/user1/Downloads/calm-20160528.xml");
FileUtils.copyURLToFile(url, file);
但是此下載的XML具有這樣的特殊字符
</td>
<td valign="middle" style="width:09.78%;border-top:1pt solid #000000 ;border-left:1pt none #D9D9D9 ;border-bottom:1pt none #D9D9D9 ;border-right:1pt none #D9D9D9 ;background-color: #CCEEFF;height:15.00pt;font-family:Times New Roman;font-size:11pt;text-align:right;" nowrap="nowrap">437,556&nbsp;
我想擺脫這些特殊字符,下載此XML本身。
這不是FileUtils.copyURLToFile的問題。 XML本身包含這些字符。 似乎有些XML標記包含html,並且引用該標記是為了不與xml混淆。 您必須取消對html的引用。
該文件是有效的XML文檔,包括轉義的XML片段。 因此它是“按原樣”有效的。 如果要處理它,請使用XML解析器並取消轉義轉義的XML片段。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.