從java中的字符串中刪除無效的XML字符

Question

您好我想從字符串中刪除所有無效的XML字符。 我想使用string.replace方法的正則表達式。

喜歡

line.replace(regExp,"");

什么是正確的regExp使用？

無效的XML字符是不是這樣的一切：

[#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]

謝謝。

Answer 1

Java的正則表達式支持增補字符，因此您可以使用兩個UTF-16編碼的字符指定那些高范圍。

以下是刪除XML 1.0中非法字符的模式：

// XML 1.0
// #x9 | #xA | #xD | [#x20-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml10pattern = "[^"
                    + "\u0009\r\n"
                    + "\u0020-\uD7FF"
                    + "\uE000-\uFFFD"
                    + "\ud800\udc00-\udbff\udfff"
                    + "]";

大多數人都想要XML 1.0版本。

以下是刪除XML 1.1中非法字符的模式：

// XML 1.1
// [#x1-#xD7FF] | [#xE000-#xFFFD] | [#x10000-#x10FFFF]
String xml11pattern = "[^"
                    + "\u0001-\uD7FF"
                    + "\uE000-\uFFFD"
                    + "\ud800\udc00-\udbff\udfff"
                    + "]+";

您將需要使用String.replaceAll(...)而不是String.replace(...) 。

String illegal = "Hello, World!\0";
String legal = illegal.replaceAll(pattern, "");

Answer 2

我們應該考慮代理人物嗎？ 否則'（當前> = 0x10000）&&（當前<= 0x10FFFF）'將永遠不會成立。

還測試了正則表達式方式似乎比以下循環慢。

if (null == text || text.isEmpty()) {
    return text;
}
final int len = text.length();
char current = 0;
int codePoint = 0;
StringBuilder sb = new StringBuilder();
for (int i = 0; i < len; i++) {
    current = text.charAt(i);
    boolean surrogate = false;
    if (Character.isHighSurrogate(current)
            && i + 1 < len && Character.isLowSurrogate(text.charAt(i + 1))) {
        surrogate = true;
        codePoint = text.codePointAt(i++);
    } else {
        codePoint = current;
    }
    if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
            || ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
            || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
            || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
        sb.append(current);
        if (surrogate) {
            sb.append(text.charAt(i));
        }
    }
}

Answer 3

Jun的解決方案，簡化了。 使用StringBuffer#appendCodePoint(int) ，我不需要char current或String#charAt(int) 。 我可以通過檢查codePoint是否大於0xFFFF來告訴代理對。

（沒有必要使用i ++，因為低代理不會通過過濾器。但是然后人們會重復使用不同代碼點的代碼，它會失敗。我更喜歡編程到黑客。）

StringBuilder sb = new StringBuilder();
for (int i = 0; i < text.length(); i++) {
    int codePoint = text.codePointAt(i);
    if (codePoint > 0xFFFF) {
        i++;
    }
    if ((codePoint == 0x9) || (codePoint == 0xA) || (codePoint == 0xD)
            || ((codePoint >= 0x20) && (codePoint <= 0xD7FF))
            || ((codePoint >= 0xE000) && (codePoint <= 0xFFFD))
            || ((codePoint >= 0x10000) && (codePoint <= 0x10FFFF))) {
        sb.appendCodePoint(codePoint);
    }
}

Answer 4

到目前為止，所有這些答案只能取代人物本身。 但有時XML文檔會有無效的XML實體序列導致錯誤。 例如，如果你有 在你的xml中，一個java xml解析器將拋出Illegal character entity: expansion character (code 0x2 at ... 。

這是一個簡單的java程序，可以替換那些無效的實體序列。

  public final Pattern XML_ENTITY_PATTERN = Pattern.compile("\\&\\#(?:x([0-9a-fA-F]+)|([0-9]+))\\;");

  /**
   * Remove problematic xml entities from the xml string so that you can parse it with java DOM / SAX libraries.
   */
  String getCleanedXml(String xmlString) {
    Matcher m = XML_ENTITY_PATTERN.matcher(xmlString);
    Set<String> replaceSet = new HashSet<>();
    while (m.find()) {
      String group = m.group(1);
      int val;
      if (group != null) {
        val = Integer.parseInt(group, 16);
        if (isInvalidXmlChar(val)) {
          replaceSet.add("&#x" + group + ";");
        }
      } else if ((group = m.group(2)) != null) {
        val = Integer.parseInt(group);
        if (isInvalidXmlChar(val)) {
          replaceSet.add("&#" + group + ";");
        }
      }
    }
    String cleanedXmlString = xmlString;
    for (String replacer : replaceSet) {
      cleanedXmlString = cleanedXmlString.replaceAll(replacer, "");
    }
    return cleanedXmlString;
  }

  private boolean isInvalidXmlChar(int val) {
    if (val == 0x9 || val == 0xA || val == 0xD ||
            val >= 0x20 && val <= 0xD7FF ||
            val >= 0x10000 && val <= 0x10FFFF) {
      return false;
    }
    return true;
  }

Answer 5

來自Mark McLaren的博客

  /**
   * This method ensures that the output String has only
   * valid XML unicode characters as specified by the
   * XML 1.0 standard. For reference, please see
   * <a href="http://www.w3.org/TR/2000/REC-xml-20001006#NT-Char">the
   * standard</a>. This method will return an empty
   * String if the input is null or empty.
   *
   * @param in The String whose non-valid characters we want to remove.
   * @return The in String, stripped of non-valid characters.
   */
  public static String stripNonValidXMLCharacters(String in) {
      StringBuffer out = new StringBuffer(); // Used to hold the output.
      char current; // Used to reference the current character.

      if (in == null || ("".equals(in))) return ""; // vacancy test.
      for (int i = 0; i < in.length(); i++) {
          current = in.charAt(i); // NOTE: No IndexOutOfBoundsException caught here; it should not happen.
          if ((current == 0x9) ||
              (current == 0xA) ||
              (current == 0xD) ||
              ((current >= 0x20) && (current <= 0xD7FF)) ||
              ((current >= 0xE000) && (current <= 0xFFFD)) ||
              ((current >= 0x10000) && (current <= 0x10FFFF)))
              out.append(current);
      }
      return out.toString();
  }

Answer 6

從最佳方式編寫Java中的XML文本數據？

String xmlEscapeText(String t) {
   StringBuilder sb = new StringBuilder();
   for(int i = 0; i < t.length(); i++){
      char c = t.charAt(i);
      switch(c){
      case '<': sb.append("&lt;"); break;
      case '>': sb.append("&gt;"); break;
      case '\"': sb.append("&quot;"); break;
      case '&': sb.append("&amp;"); break;
      case '\'': sb.append("&apos;"); break;
      default:
         if(c>0x7e) {
            sb.append("&#"+((int)c)+";");
         }else
            sb.append(c);
      }
   }
   return sb.toString();
}

Answer 7

如果要以類似XML的形式存儲帶有禁止字符的文本元素，則可以使用XPL。 dev-kit為XML和XML處理提供了並發XPL - 這意味着從XPL到XML的轉換沒有時間成本。 或者，如果您不需要XML（名稱空間）的全部功能，則可以使用XPL。

網頁：HLL XPL

Answer 8

String xmlData = xmlData.codePoints().filter(c -> isValidXMLChar(c)).collect(StringBuilder::new,
                StringBuilder::appendCodePoint, StringBuilder::append).toString();

private boolean isValidXMLChar(int c) {
    if((c == 0x9) ||
       (c == 0xA) ||
       (c == 0xD) ||
       ((c >= 0x20) && (c <= 0xD7FF)) ||
       ((c >= 0xE000) && (c <= 0xFFFD)) ||
       ((c >= 0x10000) && (c <= 0x10FFFF)))
    {
        return true;
    }
    return false;
}

Answer 9

我相信以下文章可能對您有所幫助。

http://commons.apache.org/lang/api-2.1/org/apache/commons/lang/StringEscapeUtils.html http://www.javapractices.com/topic/TopicAction.do?Id=96

不久，嘗試使用來自Jakarta項目的StringEscapeUtils。

從java中的字符串中刪除無效的XML字符

問題描述

9 個解決方案

解決方案1
75 已采納 2010-11-21 12:58:40

解決方案2
6 2012-07-26 15:31:56

解決方案3
2 2015-02-02 17:33:18

解決方案4
2 2017-07-20 18:55:37

解決方案5
1 2012-06-05 09:20:15

解決方案6
0 2015-11-10 16:43:44

解決方案7
0 2017-04-07 13:09:41

解決方案8
0 2018-01-23 09:03:37

解決方案9
-2 2010-11-21 12:26:00

從java中的字符串中刪除無效的XML字符

問題描述

9 個解決方案

解決方案1 75 已采納 2010-11-21 12:58:40

解決方案2 6 2012-07-26 15:31:56

解決方案3 2 2015-02-02 17:33:18

解決方案4 2 2017-07-20 18:55:37

解決方案5 1 2012-06-05 09:20:15

解決方案6 0 2015-11-10 16:43:44

解決方案7 0 2017-04-07 13:09:41

解決方案8 0 2018-01-23 09:03:37

解決方案9 -2 2010-11-21 12:26:00

解決方案1
75 已采納 2010-11-21 12:58:40

解決方案2
6 2012-07-26 15:31:56

解決方案3
2 2015-02-02 17:33:18

解決方案4
2 2017-07-20 18:55:37

解決方案5
1 2012-06-05 09:20:15

解決方案6
0 2015-11-10 16:43:44

解決方案7
0 2017-04-07 13:09:41

解決方案8
0 2018-01-23 09:03:37

解決方案9
-2 2010-11-21 12:26:00