繁体   English   中英

如何从java中的txt文件生成连续字符的频率矩阵?

[英]How to generate a matrix of frequency of consecutive characters from txt file in java?

我有一个大的txt文件(2GB)。 我逐个字符地读取整个txt文件,使用以下代码片段找出整个txt文件中每个字符的频率。

BufferedReader reader = new BufferedReader(
                new InputStreamReader(
                        new FileInputStream(file),
                        Charset.forName("UTF-8")));
        int c;
        while ((c = reader.read()) != -1) {
            char ch = (char) c;
            // rest of the code
        }

现在我需要生成一个连续字符频率的矩阵。 例如,在字符“a”(连续的,直接的字符)之后字符“b”存在多少次,反之亦然。

假设,我有一个输入字符串(来自文件): cad bed abed dada

频率矩阵,就像请点击这里查看图像

这个怎么做? 将不胜感激任何帮助和建议。 谢谢。

跟踪最后读取的字符。 如果lastchar ==''继续。 使用Map来存储值。然后你可以遍历组合并从地图中提取值,或者你可以通过从当前字符对中减去char'a'的int值来直接寻址2d数组。

    Map<String, Integer> table = new HashMap<>();
    String last = "";
    for (char c : input.toCharArray()) {
        if (last.isEmpty()) {
            last = String.format("%c", c);
            continue;
        }
        String thing = last + c;
        Integer count = table.getOrDefault(thing, 0);
        table.put(thing, count + 1);
        last = String.format("%c", c);
    }

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM