
[英]Python subprocess.Popen erroring with OSError: [Errno 12] Cannot allocate memory after period of time
[英]Python subprocess.Popen "OSError: [Errno 12] Cannot allocate memory"
注意:这个问题最初是在这里问的,但是即使实际上没有找到可接受的答案,赏金时间也已过期。 我正在重新提出这个问题,包括原始问题中提供的所有详细信息。
python 脚本使用sched模块每 60 秒运行一组类函数:
# sc is a sched.scheduler instance
sc.enter(60, 1, self.doChecks, (sc, False))
该脚本使用此处的代码作为守护进程运行。
作为 doChecks 的一部分调用的许多类方法使用subprocess模块调用系统函数以获取系统统计信息:
ps = subprocess.Popen(['ps', 'aux'], stdout=subprocess.PIPE).communicate()[0]
在整个脚本因以下错误而崩溃之前,它可以正常运行一段时间:
File "/home/admin/sd-agent/checks.py", line 436, in getProcesses
File "/usr/lib/python2.4/subprocess.py", line 533, in __init__
File "/usr/lib/python2.4/subprocess.py", line 835, in _get_handles
OSError: [Errno 12] Cannot allocate memory
脚本崩溃后服务器上 free -m 的输出是:
$ free -m
total used free shared buffers cached
Mem: 894 345 549 0 0 0
-/+ buffers/cache: 345 549
Swap: 0 0 0
服务器运行 CentOS 5.3。 我无法在自己的 CentOS 机器上重现,也无法在报告相同问题的任何其他用户中重现。
我已经按照原始问题中的建议尝试了很多方法来调试它:
在 Popen 调用前后记录 free -m 的输出。 内存使用没有显着变化,即内存不会随着脚本运行而逐渐用完。
我在 Popen 调用中添加了 close_fds=True 但这没有任何区别——脚本仍然因同样的错误而崩溃。 建议在这里和这里。
我按照此处的建议检查了 RLIMIT_DATA 和 RLIMIT_AS 上显示 (-1, -1) 的 rlimits。
进程正在关闭,因为这是 using.communicate() 的行为,由 Python 源代码和此处的注释支持。
整个检查可以在GitHub 上的此处找到,其中包含从第 442 行定义的 getProcesses 函数。这由从第 520 行开始的 doChecks() 调用。
该脚本在崩溃前使用 strace 运行,输出如下:
recv(4, "Total Accesses: 516662\nTotal kBy"..., 234, 0) = 234
gettimeofday({1250893252, 887805}, NULL) = 0
write(3, "2009-08-21 17:20:52,887 - checks"..., 91) = 91
gettimeofday({1250893252, 888362}, NULL) = 0
write(3, "2009-08-21 17:20:52,888 - checks"..., 74) = 74
gettimeofday({1250893252, 888897}, NULL) = 0
write(3, "2009-08-21 17:20:52,888 - checks"..., 67) = 67
gettimeofday({1250893252, 889184}, NULL) = 0
write(3, "2009-08-21 17:20:52,889 - checks"..., 81) = 81
close(4) = 0
gettimeofday({1250893252, 889591}, NULL) = 0
write(3, "2009-08-21 17:20:52,889 - checks"..., 63) = 63
pipe([4, 5]) = 0
pipe([6, 7]) = 0
fcntl64(7, F_GETFD) = 0
fcntl64(7, F_SETFD, FD_CLOEXEC) = 0
clone(child_stack=0, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0xb7f12708) = -1 ENOMEM (Cannot allocate memory)
write(2, "Traceback (most recent call last"..., 35) = 35
open("/usr/bin/sd-agent/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/bin/sd-agent/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python24.zip/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/plat-linux2/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python2.4/lib-tk/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/lib-dynload/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/site-packages/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
write(2, " File \"/usr/bin/sd-agent/agent."..., 52) = 52
open("/home/admin/sd-agent/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/bin/sd-agent/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python24.zip/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/plat-linux2/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python2.4/lib-tk/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/lib-dynload/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/site-packages/daemon.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
write(2, " File \"/home/admin/sd-agent/dae"..., 60) = 60
open("/usr/bin/sd-agent/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/bin/sd-agent/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python24.zip/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/plat-linux2/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python2.4/lib-tk/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/lib-dynload/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/site-packages/agent.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
write(2, " File \"/usr/bin/sd-agent/agent."..., 54) = 54
open("/usr/lib/python2.4/sched.py", O_RDONLY|O_LARGEFILE) = 8
write(2, " File \"/usr/lib/python2.4/sched"..., 55) = 55
fstat64(8, {st_mode=S_IFREG|0644, st_size=4054, ...}) = 0
mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7d28000
read(8, "\"\"\"A generally useful event sche"..., 4096) = 4054
write(2, " ", 4) = 4
write(2, "void = action(*argument)\n", 25) = 25
close(8) = 0
munmap(0xb7d28000, 4096) = 0
open("/usr/bin/sd-agent/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/bin/sd-agent/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python24.zip/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/plat-linux2/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python2.4/lib-tk/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/lib-dynload/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/site-packages/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
write(2, " File \"/usr/bin/sd-agent/checks"..., 60) = 60
open("/usr/bin/sd-agent/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/bin/sd-agent/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python24.zip/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/plat-linux2/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOMEM (Cannot allocate memory)
open("/usr/lib/python2.4/lib-tk/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/lib-dynload/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
open("/usr/lib/python2.4/site-packages/checks.py", O_RDONLY|O_LARGEFILE) = -1 ENOENT (No such file or directory)
write(2, " File \"/usr/bin/sd-agent/checks"..., 64) = 64
open("/usr/lib/python2.4/subprocess.py", O_RDONLY|O_LARGEFILE) = 8
write(2, " File \"/usr/lib/python2.4/subpr"..., 65) = 65
fstat64(8, {st_mode=S_IFREG|0644, st_size=39931, ...}) = 0
mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7d28000
read(8, "# subprocess - Subprocesses with"..., 4096) = 4096
read(8, "lso, the newlines attribute of t"..., 4096) = 4096
read(8, "code < 0:\n print >>sys.st"..., 4096) = 4096
read(8, "alse does not exist on 2.2.0\ntry"..., 4096) = 4096
read(8, " p2cread\n # c2pread <-"..., 4096) = 4096
write(2, " ", 4) = 4
write(2, "errread, errwrite)\n", 19) = 19
close(8) = 0
munmap(0xb7d28000, 4096) = 0
open("/usr/lib/python2.4/subprocess.py", O_RDONLY|O_LARGEFILE) = 8
write(2, " File \"/usr/lib/python2.4/subpr"..., 71) = 71
fstat64(8, {st_mode=S_IFREG|0644, st_size=39931, ...}) = 0
mmap2(NULL, 4096, PROT_READ|PROT_WRITE, MAP_PRIVATE|MAP_ANONYMOUS, -1, 0) = 0xb7d28000
read(8, "# subprocess - Subprocesses with"..., 4096) = 4096
read(8, "lso, the newlines attribute of t"..., 4096) = 4096
read(8, "code < 0:\n print >>sys.st"..., 4096) = 4096
read(8, "alse does not exist on 2.2.0\ntry"..., 4096) = 4096
read(8, " p2cread\n # c2pread <-"..., 4096) = 4096
read(8, "table(self, handle):\n "..., 4096) = 4096
read(8, "rrno using _sys_errlist (or siml"..., 4096) = 4096
read(8, " p2cwrite = None, None\n "..., 4096) = 4096
write(2, " ", 4) = 4
write(2, "self.pid = os.fork()\n", 21) = 21
close(8) = 0
munmap(0xb7d28000, 4096) = 0
write(2, "OSError", 7) = 7
write(2, ": ", 2) = 2
write(2, "[Errno 12] Cannot allocate memor"..., 33) = 33
write(2, "\n", 1) = 1
unlink("/var/run/sd-agent.pid") = 0
close(3) = 0
munmap(0xb7e0d000, 4096) = 0
rt_sigaction(SIGINT, {SIG_DFL, [], SA_RESTORER, 0x589978}, {0xb89a60, [], SA_RESTORER, 0x589978}, 8) = 0
brk(0xa022000) = 0xa022000
exit_group(1) = ?
作为一般规则(即在 vanilla 内核中), ENOMEM
的fork
/ clone
失败特别是因为老实说内存不足的情况( dup_mm
, dup_task_struct
, alloc_pid
, mpol_dup
, mm_init
等。 croak),或者因为security_vm_enough_memory_mm
在执行过度使用策略时失败了。
首先在 fork 尝试时检查未能 fork 的进程的 vmsize,然后与与过度使用策略相关的可用内存量(物理和交换)进行比较(插入数字。)
在您的特定情况下,请注意 Virtuozzo 在overcommit enforcement中有额外的检查。 此外,我不确定您在容器内对交换和过度使用配置(为了影响执行结果)真正拥有多少控制权。
现在,为了真正向前迈进,我会说你有两个选择:
请注意,如果事实证明不是您,而是其他人在您运行 amock 时在同一服务器上的不同实例中并置,那么编码工作可能会全部付诸东流。
在内存方面,我们已经知道 subprocess.Popen 在subprocess.Popen
使用fork
/ clone
,这意味着每次调用它时,您都会再次请求与 Python 已经消耗的内存一样多的内存,即数百个额外的 MB,所有这些都是为了执行一个微不足道的 10kB exec
文件,例如free
或ps
。 在不利的过度使用策略的情况下,您很快就会看到ENOMEM
。
没有此父页表等复制问题的fork
的替代方案是vfork
和posix_spawn
。 但是,如果您不想根据vfork
/ posix_spawn
重写subprocess.Popen
块,请考虑仅在脚本开头使用suprocess.Popen
一次(当 Python 的内存占用量最小时),以生成一个 shell 脚本,然后在与脚本并行的循环中运行free
/ ps
/ sleep
和其他任何东西; 轮询脚本的输出或同步读取它,如果您有其他需要异步处理的事情,可能从一个单独的线程读取它——在 Python 中处理数据,但将分叉留给从属进程。
但是,在您的特定情况下,您可以完全跳过调用ps
和free
; 您可以直接从procfs
使用 Python 轻松获得该信息,无论您选择自己访问还是通过现有库和/或包访问它。 如果ps
和free
是您正在运行的唯一实用程序,那么您可以完全取消subprocess.Popen
。
最后,就subprocess.Popen
而言,无论你做什么,如果你的脚本泄漏内存,你最终还是会碰壁。 密切关注它,并检查内存泄漏。
查看free -m
的输出,在我看来您实际上没有可用的交换内存。 我不确定在 Linux 中交换是否总是会按需自动提供,但我遇到了同样的问题,这里的答案都没有真正帮助我。 然而,添加一些交换内存解决了我的问题,因为这可能会帮助其他面临同样问题的人,我发布了关于如何添加 1GB 交换的答案(在 Ubuntu 12.04 上,但它应该适用于其他发行版。)
您可以先检查是否启用了交换内存。
$sudo swapon -s
如果为空,则表示您没有启用任何交换。 要添加 1GB 交换空间:
$sudo dd if=/dev/zero of=/swapfile bs=1024 count=1024k
$sudo mkswap /swapfile
$sudo swapon /swapfile
将以下行添加到fstab
以使交换永久化。
$sudo vim /etc/fstab
/swapfile none swap sw 0 0
来源和更多信息可以在这里找到。
为了轻松修复,您可以
echo 1 > /proc/sys/vm/overcommit_memory
如果您确定您的系统有足够的内存。 请参阅Linux over commit heuristic 。
swap 可能不是之前建议的红鲱鱼。 ENOMEM
之前的 python 进程有多大?
在内核 2.6 下, /proc/sys/vm/swappiness
控制内核转向交换的积极程度,以及overcommit*
文件内核可以通过眨眼和点头分配内存的数量和精确度。 就像你的 facebook 关系状态一样,它很复杂。
...但交换实际上是按需提供的(根据网络主机)...
但不是根据您的free(1)
命令的输出,它显示您的服务器实例没有识别出交换空间。 现在,您的网络托管服务商肯定比我更了解这个主题,但我使用的虚拟 RHEL/CentOS 系统报告说交换可用于来宾操作系统。
只要匿名内存和系统 V 共享内存的总和小于 RAM 量的大约 3/4,Red Hat Enterprise Linux 5 系统就可以在没有交换空间的情况下正常运行。 .... 内存为 4GB 或更少的系统[建议拥有]至少 2GB 的交换空间。
将您的/proc/sys/vm
设置与普通的 CentOS 5.3 安装进行比较。 添加交换文件。 降低swappiness
,看看你是否还能活得更久。
我仍然怀疑您的客户/用户加载了一些内核模块或驱动程序,这会干扰clone()
系统调用(也许是一些模糊的安全增强功能,类似于 LIDS 但更模糊?)或者以某种方式填充了一些内核fork()
/ clone()
操作所必需的数据结构(进程表、页表、文件描述符表等)。
这是fork(2)
手册页的相关部分:
ERRORS EAGAIN fork() cannot allocate sufficient memory to copy the parent's page tables and allocate a task structure for the child. EAGAIN It was not possible to create a new process because the caller's RLIMIT_NPROC resource limit was encountered. To exceed this limit, the process must have either the CAP_SYS_ADMIN or the CAP_SYS_RESOURCE capability. ENOMEM fork() failed to allocate the necessary kernel structures because memory is tight.
我建议让用户在引导到普通内核并且只加载最少的模块和驱动程序集(运行您的应用程序/脚本所需的最低限度)后尝试此操作。 从那里,假设它在该配置中工作,他们可以在该配置和出现问题的配置之间执行二进制搜索。 这是标准的系统管理员故障排除 101。
您的strace
中的相关行是:
clone(child_stack=0, flags=CLONE_CHILD_CLEARTID|CLONE_CHILD_SETTID|SIGCHLD, child_tidptr=0xb7f12708) = -1 ENOMEM (Cannot allocate memory)
...我知道其他人已经讨论过交换和内存可用性(我建议您至少设置一个小的交换分区,具有讽刺意味的是即使它在 RAM 磁盘上......通过 Linux 内核的代码路径有与可用交换为零的那些(异常处理路径)相比,即使是一点点可用交换也得到了更广泛的运用。
但是我怀疑这仍然是一条红鲱鱼。
free
报告缓存和缓冲区使用的内存为 0 (ZERO),这一事实非常令人不安。 我怀疑free
output... 以及您的应用程序问题可能是由某些专有内核模块引起的,该模块以某种方式干扰了内存分配。
根据 fork()/clone() 的手册页,如果您的调用会导致资源限制违规(RLIMIT_NPROC),fork() 系统调用应该返回 EAGAIN...但是,它没有说明是否要返回 EAGAIN其他 RLIMIT* 违规行为。 在任何情况下,如果您的目标/主机有某种奇怪的 Vormetric 或其他安全设置(或者即使您的进程在某种奇怪的 SELinux 策略下运行),那么它可能会导致此 -ENOMEM 失败。
这不太可能是普通的 Linux/UNIX 问题。 你那里发生了一些非标准的事情。
您是否尝试过使用:
(status,output) = commands.getstatusoutput("ps aux")
我认为这为我解决了完全相同的问题。 但是后来我的过程最终被杀死而不是未能产生,这更糟糕..
经过一些测试后,我发现这只发生在旧版本的 python 上:它发生在 2.6.5 而不是 2.7.2
我的搜索将我带到这里python-close_fds-issue ,但取消设置 closed_fds 并没有解决问题。 还是很值得一读的。
我发现 python 只是通过关注它来泄漏文件描述符:
watch "ls /proc/$PYTHONPID/fd | wc -l"
像你一样,我确实想捕获命令的输出,并且我确实想避免 OOM 错误......但看起来唯一的方法是让人们使用错误较少的 Python 版本。 不理想...
也许你可以简单地
$ sudo bash -c "echo vm.overcommit_memory=1 >> /etc/sysctl.conf"
$ sudo sysctl -p
它适用于我的情况。
参考:https ://github.com/openai/gym/issues/110#issuecomment-220672405
蒙图 (0xb7d28000, 4096) = 0
写(2,“OSError”,7)= 7
我见过看起来像这样的草率代码:
serrno = errno;
some_Syscall(...)
if (serrno != errno)
/* sound alarm: CATROSTOPHIC ERROR !!! */
您应该检查这是否是 python 代码中发生的情况。 Errno 仅在正在进行的系统调用失败时才有效。
编辑添加:
你没有说这个过程会持续多久。 可能的内存消费者
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.