繁体   English   中英

java:如何规范化文本?

[英]java: how to normalize text?

我想为我的程序构建索引,其中一个最重要的步骤是规范化文本。 例如,我需要将“[(Mac Pro @apple)]”转换为“macproapple”,其中我过滤空格,标点符号([()]和特殊字符(@)。 我的代码是这样的:

StringBuilder sb = new StringBuilder(text);
sb = filterPunctuations(sb);
sb = filterSpecialChars(sb);
sb = filterBlankSpace(sb);
sb = toLower(sb);

因为这会生成很多String对象,所以我决定使用StringBuilder。 但我不知道如何使用StringBuffer。 有人有什么建议吗? 我还需要处理汉字。

您可以将replaceAll api与正则表达式一起使用

String originalText = "[(Mac Pro @apple)]";
String removedString = originalText.replaceAll("[^\\p{L}\\p{N}]", "").toLowerCase();

内部replaceAll方法使用StringBuffer,因此您不必担心在内存中创建的多个对象。

这是Matcher类中replaceAll代码

 public String replaceAll(String replacement) {
        reset();
        boolean result = find();
        if (result) {
            StringBuffer sb = new StringBuffer();
            do {
                appendReplacement(sb, replacement);
                result = find();
            } while (result);
            appendTail(sb);
            return sb.toString();
        }
        return text.toString();
    }

尝试这个-

class Solution
{
        public static void main (String[] args)
        {
                String s = "[(Mac Pro @apple)]";
                s = s.replaceAll("[^A-Za-z]", "");
                System.out.println(s);
        }
}

这给出了输出

MacProapple

对上述行的一个小解释是 -

s.replaceAll("[^A-Za-z]", "")删除字符串中AZ(az和az)中未表示的所有内容(由^表示)。 这里解释了Java中的正则表达式。

如果要在最后将字符串转换为小写,则需要使用s.toLowerCase()

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM