如何從utf-8表示的字符串中獲取源字符串

Question

我有一個從Internet獲取的頁面，內容是utf-8編碼為String的，可能是這樣的：

{"has_more": true, "items": [{"body": "\u6ca1\u6709\u4f20\u8bf4\u4e2d\u7684\u90a3\u4e48\u597d",...}

我嘗試使用URLDecoder.decode（），但是它不起作用，它輸出的是確切的輸入。 有什么建議么？ 這是utf-8明確編碼的String對象，而不是inputStream或sth。 我做了一些搜索工作，發現沒有什么意義。

Answer 1

這是JSON編碼，它以特定方式處理某些特定字符。 它不是URL編碼，因此不起作用。

您為什么不嘗試使用JSON庫？ json simple或GSON是很好的開始。

出於好奇：這里描述的是編碼： RFC4627

Answer 2

源代碼符號是u編碼（ \\uXXXX ），但是String本身是不可區分的普通字符串（Java / JavaScript），例如\\n或\\t 。

JDK有一個轉換工具：

native2ascii -encoding UTF-8 -reverse mypage.json plain-utf8.json

Answer 3

您可以使用Gson將其轉換為Map。

Answer 4

檢出Java中的庫-Java中的JSON

Answer 5

是的，它的JSON （JavaScript對象表示法）是一種輕量級的數據交換格式。

瀏覽http://www.json.org/java/