使用Java Normalizer將重音ascii轉換為非重音但排除一些符號

Question

我有一組數據，在其中加入了ascii。 我想將重音轉換為普通的英文字母。 我通過以下代碼實現了這一點：

import java.text.Normalizer;
import java.util.regex.Pattern;

public String deAccent(String str) {
    String nfdNormalizedString = Normalizer.normalize(str, Normalizer.Form.NFD); 
    Pattern pattern = Pattern.compile("\\p{InCombiningDiacriticalMarks}+");
    return pattern.matcher(nfdNormalizedString).replaceAll("");
}

但是這個代碼缺少的是排除字符，我不知道如何從轉換中排除某些字符，例如我想從杜塞爾多夫這個詞中排除字母“ü”所以當我轉換時，它不會變成杜塞爾多夫的話。 有沒有辦法將排除列表傳遞給方法或匹配器，並且不轉換某些重音字符？

Answer 1

不要使用規范化來刪除重音！

例如，以下字母不會使用您的方法解析：

ł
đ
ħ

您可能還希望將類似œ連字分成單獨的字母（即oe ）。

嘗試這個：

private static final String TAB_00C0 = "" +
        "AAAAAAACEEEEIIII" +
        "DNOOOOO×OUUUÜYTs" + // <-- note an accented letter you wanted 
                             //     and preserved multiplication sign
        "aaaaaaaceeeeiiii" +
        "dnooooo÷ouuuüyty" + // <-- note an accented letter and preserved division sign
        "AaAaAaCcCcCcCcDd" +
        "DdEeEeEeEeEeGgGg" +
        "GgGgHhHhIiIiIiIi" +
        "IiJjJjKkkLlLlLlL" +
        "lLlNnNnNnnNnOoOo" +
        "OoOoRrRrRrSsSsSs" +
        "SsTtTtTtUuUuUuUu" +
        "UuUuWwYyYZzZzZzs";

public static String toPlain(String source) {
    StringBuilder sb = new StringBuilder(source.length());
    for (int i = 0; i < source.length(); i++) {
        char c = source.charAt(i);
        switch (c) {
            case 'ß':
                sb.append("ss");
                break;
            case 'Œ':
                sb.append("OE");
                break;
            case 'œ':
                sb.append("oe");
                break;
            // insert more ligatures you want to support 
            // or other letters you want to convert in a non-standard way here
            // I recommend to take a look at: æ þ ð ﬂ ﬁ
            default:
                if (c >= 0xc0 && c <= 0x17f) {
                    c = TAB_00C0.charAt(c - 0xc0);
                }
                sb.append(c);
        }
    }
    return sb.toString();
}

使用Java Normalizer將重音ascii轉換為非重音但排除一些符號

問題描述

1 個解決方案

解決方案1
3 已采納 2014-03-25 20:53:58

使用Java Normalizer將重音ascii轉換為非重音但排除一些符號

問題描述

1 個解決方案

解決方案1 3 已采納 2014-03-25 20:53:58

解決方案1
3 已采納 2014-03-25 20:53:58