從JSOUP解析的HTML中刪除轉義文本

Question

我正在使用JSOUP解析HTML，其中包含一些元素。 但是，當我打印生成的doc.html（）時，而不是：

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>

我正進入（狀態：

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

在代碼中，我執行如下操作：

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

我正在使用UTF-8字符集。

如何直接獲取未轉義的文本？ 提前致謝！

Answer 1

嘿謝謝你的幫助......我們用以下方法解決了問題：

src.childNode(0).attr("data", data);

Answer 2

請改用.html()方法

src.html(data)

Answer 3

我遇到了同樣的問題。 來自Apache Commons的StringEscapeUtils似乎可以解決問題。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO它不是這個問題的最佳解決方案，但它對我有用。

從JSOUP解析的HTML中刪除轉義文本

問題描述

3 個解決方案

解決方案1
4 已采納 2012-04-24 13:03:21

解決方案2
0 2012-04-23 18:06:34

解決方案3
0 2012-05-15 11:43:12

從JSOUP解析的HTML中刪除轉義文本

問題描述

3 個解決方案

解決方案1 4 已采納 2012-04-24 13:03:21

解決方案2 0 2012-04-23 18:06:34

解決方案3 0 2012-05-15 11:43:12

解決方案1
4 已采納 2012-04-24 13:03:21

解決方案2
0 2012-04-23 18:06:34

解決方案3
0 2012-05-15 11:43:12