将C字符串数组移动到Java空间的更有效方法

Question

假设我有一个包含N个元素的C字符串数组。 我的目标是使用JNI将该数组传递给Java函数，并将相等长度的新字符串数组返回给C空间。 目前，我正在执行以下操作：

使用NewObjectArray生成长度为N的Java对象数组。
N次调用NewStringUTF / SetObjectArray，以将每个单独的C字符串装箱到Java Object数组中。
调用copyStrArr（以下来源）。
用malloc分配长度为（char *）的N个数组。
调用N次GetObjectArrayElement / GetStringUTFChars，以从返回的Java Object数组中拆箱每个单独的Java String。

作为参考，Java代码如下所示：

public static String[] copyStrArr(String []inArr)
{
    String []outArr = new String[inArr.length];
    for(int _i = 0; _i < outArr.length; _i++) {
        outArr[_i] = inArr[_i]; /* Normally real work would be done here */
    }
    return outArr;
}

在“真实”情况下，实际工作将在for循环内完成，但是对于基准测试，我们只是复制数据。

对于较大的N，这很慢。 太慢了。 当将大小相似的int或double数组从C移到Java并返回Java时，它的运行速度比String []情况快70倍。 将数据装箱和拆箱的时间大约占99.5％。 在原始情况下，JNI提供了{Set，Get} ArrayRegion函数来将原始数组从C空间批量复制到Java空间，然后再复制回Java空间，这要快得多。

有人建议我使用byte []作为中介，将数据放入Java空间，然后在Java中进行单独的String Object装箱（JVM可以在其中进行优化）。 基准测试表明，此方法比原始测试的性能稍差，将大量开销转移到了Java中。 部分原因可能是我可能没有最佳地对Java中的byte []取消装箱/装箱。 我正在执行以下操作：

用NewByteArray分配足够大的byte []
调用SetByteArrayRegion N次以填充字节[]
调用copyBytArray（以下来源）
调用GetByteArrayRegion并将整个结果复制回C空间
分配足够大的（char *）数组
将N个字符串的每一个从结果中复制到新分配的数组中。

我的Java代码如下所示：

public static byte[] copyBytArr(byte []inArr)
{
    String[] tokInArr = new String(inArr, UTF8_CHARSET).split("\0");
    String []tokOutArr = new String[tokInArr.length];
    int len = 0;
    for(int _i = 0; _i < tokOutArr.length; _i++) {
        tokOutArr[_i] = tokInArr[_i]; /* Normally real work would be done here */
        len += (tokInArr[_i].length() + 1);
    }
    byte[] outArr = new byte[len];
    int _j = 0;
    for(int _i = 0; _i < tokOutArr.length; _i++) {
        byte[] bytes = tokOutArr[_i].getBytes(UTF8_CHARSET);
        for(int _k = 0; _k < bytes.length; _k++) {
            outArr[_j++] = bytes[_k];
        }
        outArr[_j++] = '\0';
    }
    return outArr;
}

在此测试中，大约55％的开销花在了Java上，其余的花在了装箱/拆箱上。

有人建议我的一些开销与我在C语言中使用UTF-8数据有关，因为Java使用UTF-16。 这是不可避免的。

有人对我如何更有效地解决这个问题有任何想法吗？

Answer 1

我认为您的问题是分配了许多字符串对象。 为了获得真正的性能，您只需要交换大的byte []并使用Wrapper类“指向”字节数组进行String处理。 只要您通过C chars []来回创建字符串对象，就不会获得真正的吞吐量。

FST正在与“ StructString”类进行类似的操作，以对byte []数据进行操作，而无需创建“真实”对象。

为了进一步加快数据交换的速度，您可能需要使用内存映射文件创建共享内存，然后通过Unsafe或ByteBuffers进行访问。

将C字符串数组移动到Java空间的更有效方法

问题描述

1 个解决方案

解决方案1
1 2013-10-22 16:49:22

将C字符串数组移动到Java空间的更有效方法

问题描述

1 个解决方案

解决方案1 1 2013-10-22 16:49:22

解决方案1
1 2013-10-22 16:49:22