簡體   English   中英

從JSOUP解析的HTML中刪除轉義文本

[英]Remove escaped text from JSOUP parsed HTML

我正在使用JSOUP解析HTML,其中包含一些元素。 但是,當我打印生成的doc.html()時,而不是:

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script> 

我正進入(狀態 :

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

在代碼中,我執行如下操作:

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

我正在使用UTF-8字符集。

如何直接獲取未轉義的文本? 提前致謝 !

嘿謝謝你的幫助......我們用以下方法解決了問題:

src.childNode(0).attr("data", data);

請改用.html()方法

src.html(data)

我遇到了同樣的問題。 來自Apache Commons的StringEscapeUtils似乎可以解決問題。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO它不是這個問題的最佳解決方案,但它對我有用。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM