[英]Remove escaped text from JSOUP parsed HTML
我正在使用JSOUP解析HTML,其中包含一些元素。 但是,當我打印生成的doc.html()時,而不是:
<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>
我正進入(狀態 :
<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>
在代碼中,我執行如下操作:
for (final Element src : doc.select("script")) {
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }
我正在使用UTF-8字符集。
如何直接獲取未轉義的文本? 提前致謝 !
嘿謝謝你的幫助......我們用以下方法解決了問題:
src.childNode(0).attr("data", data);
請改用.html()
方法
src.html(data)
我遇到了同樣的問題。 來自Apache Commons的StringEscapeUtils似乎可以解決問題。
String html = StringEscapeUtils.unescapeHtml4(document.html());
IMO它不是這個問題的最佳解決方案,但它對我有用。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.