java-从文本提取中省略特殊字符

Question

我有一个程序，可以从PDF文件中提取文本或单词，然后将这些单词插入数据库中的表中。

在插入过程中，我有一个特殊的正则表达式来省略单词中是否存在特殊字符。 规则是，如果在单词前面或单词结尾处有特殊字符的单词被删除。

例：

Text : `,test.`
Token : `test`
Text: ?good
Token : good 
 Text: ?,.
 Token:
 Text: www.stack.com
 Token: www.stack.com

只要字符之间没有空格，特殊字符就会保留。 至少这是我定义的方式。

这是我定义要存储的单词的定义的基本思想。 但是，当涉及到某些单词时，例如下划线：

Text: _
Token : Same as above

Text: _—,m‘—_
Token : same as above

下划线似乎没有被视为特殊字符。

我的代码：

String lines[] = text.split("\\r?\\n");
    for (String line : lines) {
        String[] words = line.split(" ");

        System.out.println("Line: " + line);



        preparedStatement = con1.prepareStatement(sql);
        int i=0;
        for (String word : words) {

            // check if one or more special characters at end of string then remove OR
            // check special characters in beginning of the string then remove
            // insert every word directly to table db
            word = word.replaceAll("([\\W]+$)|(^[\\W]+)", "");
            preparedStatement.setString(1, path1);
            preparedStatement.setString(2, word);
              System.out.println("Token: " +word);
            preparedStatement.executeUpdate();
        }


    }

有没有办法适当地忽略特殊字符或符号的每种可能组合？

Answer 1

\\ W的定义为[^a-zA-Z_0-9] （请参阅Java Pattern API ）。

因此，要获得没有下划线的相同行为，请将\\ W替换为[^a-zA-Z0-9]

您的代码行将是：

word = word.replaceAll("([^a-zA-Z_0-9]+$)|(^[^a-zA-Z_0-9]+)", "");

Answer 2

您可以使用以下内容替换所有特殊字符（空格除外）。

word = word.replaceAll("([ a-zA-Z0-9])", "");

java-从文本提取中省略特殊字符

问题描述

2 个解决方案

解决方案1
1 已采纳 2018-12-20 04:23:59

解决方案2
0 2018-12-20 02:47:47

java-从文本提取中省略特殊字符

问题描述

2 个解决方案

解决方案1 1 已采纳 2018-12-20 04:23:59

解决方案2 0 2018-12-20 02:47:47

解决方案1
1 已采纳 2018-12-20 04:23:59

解决方案2
0 2018-12-20 02:47:47