繁体   English   中英

Java / Python中的快速IPC / Socket通信

[英]Fast IPC/Socket communication in Java/Python

两个进程(Java和Python)需要在我的应用程序中进行通信。 我注意到套接字通信占用了93%的运行时间。 为什么沟通这么慢? 我应该寻找套接字通信的替代方案,还是可以加快速度?

更新:我发现了一个简单的修复。 似乎缓冲输出流由于某种未知原因而没有真正缓冲。 所以,我现在将所有数据放入客户端/服务器进程的字符串缓冲区中。 我在flush方法中将它写入套接字。

我仍然对使用共享内存在进程之间快速交换数据的示例感兴趣。

一些其他信息:

  1. 应用程序中的消息大小大多数时间不到64kb。
  2. 服务器是Java,客户端是用Python编写的。
  3. 套接字IPC在下面实现:它需要50个周期发送200个字节! 这必须太高了。 如果我在5000个周期内发送2个字节,则需要的时间要少得多。
  4. 这两个进程都在一台Linux机器上运行。
  5. 在实际应用程序中,每个周期都会对客户端的iFid.write()进行大约10次调用。
  6. 这是在Linux系统上完成的。

这是服务器端:

public class FastIPC{
    public PrintWriter out;
    BufferedReader in;
    Socket socket = null;
    ServerSocket serverSocket = null;


    public FastIPC(int port) throws Exception{
        serverSocket = new ServerSocket(port);
        socket = serverSocket.accept();
        out = new PrintWriter(new BufferedWriter(new OutputStreamWriter(socket.getOutputStream())), true);
        in = new BufferedReader(new InputStreamReader(socket.getInputStream()));
    }

    public void send(String msg){
        out.println(msg); // send price update to socket
    }

    public void flush(){
        out.flush();
    }

    public String recv() throws Exception{
        return in.readLine();
    }

    public static void main(String[] args){
        int port = 32000;
        try{
            FastIPC fip = new FastIPC(port);
            long start = new Date().getTime();
            System.out.println("Connected.");
            for (int i=0; i<50; i++){
                for(int j=0; j<100; j++)
                    fip.send("+");
                fip.send(".");
                fip.flush();
                String msg = fip.recv();
            }
            long stop = new Date().getTime();
            System.out.println((double)(stop - start)/1000.);
        }catch(Exception e){
            System.exit(1);
        }
    }
}

客户端是:

import sys
import socket

class IPC(object):
    def __init__(self):
        self.s = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.s.connect(("localhost", 32000))
        self.fid = self.s.makefile() # file wrapper to read lines
        self.listenLoop() # wait listening for updates from server

    def listenLoop(self):
        fid = self.fid
        print "connected"
        while True:
            while True:
                line = fid.readline()
                if line[0]=='.':
                    break
            fid.write('.\n')
            fid.flush()

if __name__ == '__main__':
    st = IPC()

你有很多选择。 由于您使用的是Linux,因此可以使用UNIX域套接字。 或者,您可以将数据序列化为ASCII或JSon或其他格式,并通过管道,SHM(共享内存段),消息队列,DBUS或类似方式提供数据。 值得思考您拥有的数据类型,因为这些IPC机制具有不同的性能特征。 一份USENIX论文草案 ,对各种值得一读的权衡进行了很好的分析。

既然你说(在这个答案的评论中)你更喜欢使用SHM,这里有一些代码示例来启动你。 使用Python posix_ipc库:

import posix_ipc # POSIX-specific IPC
import mmap      # From Python stdlib

class SharedMemory(object):
    """Python interface to shared memory. 
    The create argument tells the object to create a new SHM object,
    rather than attaching to an existing one.
    """

    def __init__(self, name, size=posix_ipc.PAGE_SIZE, create=True):
        self.name = name
        self.size = size
        if create:
            memory = posix_ipc.SharedMemory(self.name, posix_ipc.O_CREX,
                                            size=self.size)
        else:
            memory = posix_ipc.SharedMemory(self.name)
        self.mapfile = mmap.mmap(memory.fd, memory.size)
        os.close(memory.fd)
        return

    def put(self, item):
        """Put item in shared memory.
        """
        # TODO: Deal with the case where len(item) > size(self.mapfile)
        # TODO: Guard this method with a named semaphore
        self.mapfile.seek(0)
        pickle.dump(item, self.mapfile, protocol=2)
        return

    def get(self):
        """Get a Python object from shared memory.
        """
        # TODO: Deal with the case where len(item) > size(self.mapfile)
        # TODO: Guard this method with a named semaphore
        self.mapfile.seek(0)
        return pickle.load(self.mapfile)

    def __del__(self):
        try:
            self.mapfile.close()
            memory = posix_ipc.SharedMemory(self.name)
            memory.unlink()
        except:
            pass
        return    

对于Java端,你想创建相同的类,尽管我在评论中说过, JTux似乎提供了相同的功能,你需要的API是在UPosixIPC类中。

下面的代码概述了您需要实现的类型。 但是,有几个缺失 - 异常处理是显而易见的,也有一些标志(在UConstant中找到它们),并且你想要添加一个信号量来保护put / get方法。 但是,这应该让你走上正轨。 请记住, mmap或内存映射文件是一段RAM的文件类接口。 因此,您可以使用其文件描述符,就好像它是普通文件的fd

import jtux.*;

class SHM {

    private String name;
    private int size;
    private long semaphore;
    private long mapfile; // File descriptor for mmap file

    /* Lookup flags and perms in your system docs */
    public SHM(String name, int size, boolean create, int flags, int perms) {
        this.name = name;
        this.size = size;
        int shm;
        if (create) {
            flags = flags | UConstant.O_CREAT;
            shm = UPosixIPC.shm_open(name, flags, UConstant.O_RDWR);
        } else {
            shm = UPosixIPC.shm_open(name, flags, UConstant.O_RDWR);
        }
        this.mapfile = UPosixIPC.mmap(..., this.size, ..., flags, shm, 0);
        return;
    }


    public void put(String item) {
        UFile.lseek(this.mapfile(this.mapfile, 0, 0));
        UFile.write(item.getBytes(), this.mapfile);
        return;
    }


    public String get() {    
        UFile.lseek(this.mapfile(this.mapfile, 0, 0));
        byte[] buffer = new byte[this.size];
        UFile.read(this.mapfile, buffer, buffer.length);
        return new String(buffer);
    }


    public void finalize() {
        UPosix.shm_unlink(this.name);
        UPosix.munmap(this.mapfile, this.size);
    }

}

一些想法

  • 服务器是Java,客户端是用Python编写的。

一个奇怪的组合,但是有什么理由不能通过stdin,stdout调用另一个发送?

  • 套接字IPC在下面实现:它需要50个周期发送200个字节! 这必须太高了。 如果我在5000个周期内发送2个字节,则需要的时间要少得多。

对操作系统的任何调用都会相对较慢(延迟明智)。 使用共享内存可以通过内核。 如果您遇到吞吐量问题,我发现如果延迟不是您的问题,您可以使用套接字达到1-2 GB / s。

  • 这两个进程都在一台Linux机器上运行。

使共享内存理想化。

  • 在实际应用程序中,每个周期都会对客户端的iFid.write()进行大约10次调用。

不知道为什么会这样。 为什么不构建单个结构/缓冲区并将其写入一次。 我会使用直接缓冲区是NIO来最小化延迟。 使用字符转换非常昂贵,特别是如果您只需要ASCII。

  • 这是在Linux系统上完成的。

应该很容易优化。

我通过内存映射文件使用共享内存。 这是因为我需要记录每条消息以进行审计。 对于数百万条消息,我得到的往返平均延迟大约为180 ns,在实际应用中大约为490 ns。

这种方法的一个优点是,如果有短暂的延迟,读者可以很快赶上作者。 它还支持轻松重新启动和复制。

这只是用Java实现的,但原理很简单,我相信它也适用于python。

https://github.com/peter-lawrey/Java-Chronicle

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM