繁体   English   中英

Airflow psycopg2.OperationalError: FATAL: 抱歉,已经有太多客户端了

Airflow psycopg2.OperationalError: FATAL: sorry, too many clients already

提示:本站收集StackOverFlow近2千万问答,支持中英文搜索,鼠标放在语句上弹窗显示对应的参考中文或英文, 本站还提供   中文繁体   英文版本   中英对照 版本,有任何建议请联系yoyou2525@163.com。

我有一个四节点集群 Airflow 环境,几个月来一直运行良好。

ec2-实例

  • 服务器 1:Web 服务器、调度程序、Redis 队列、PostgreSQL 数据库
  • 服务器 2:网络服务器
  • 服务器 3:工人
  • 服务器 4:工人

最近我一直在研究一个更复杂的 DAG,与我之前处理的相对较小的任务相比,它有几十个任务。 我不确定这是否就是我现在看到这个错误弹出的原因还是什么,但我会偶尔收到这个错误:

在任务日志下的 Airflow UI 上:

psycopg2.OperationalError: FATAL: sorry, too many clients already

在网络服务器上(从运行的气流 webserver输出)我也得到同样的错误:

[2018-07-23 17:43:46 -0400] [8116] [ERROR] Exception in worker process
Traceback (most recent call last):
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/engine/base.py", line 2158, in _wrap_pool_connect
    return fn()
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 403, in connect
    return _ConnectionFairy._checkout(self)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 788, in _checkout
    fairy = _ConnectionRecord.checkout(pool)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 532, in checkout
    rec = pool._do_get()
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 1193, in _do_get
    self._dec_overflow()
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/util/langhelpers.py", line 66, in __exit__
    compat.reraise(exc_type, exc_value, exc_tb)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/util/compat.py", line 187, in reraise
    raise value
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 1190, in _do_get
    return self._create_connection()
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 350, in _create_connection
    return _ConnectionRecord(self)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 477, in __init__
    self.__connect(first_connect_check=True)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/pool.py", line 671, in __connect
    connection = pool._invoke_creator(self)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/engine/strategies.py", line 106, in connect
    return dialect.connect(*cargs, **cparams)
  File "/usr/local/lib/python3.6/site-packages/sqlalchemy/engine/default.py", line 410, in connect
    return self.dbapi.connect(*cargs, **cparams)
  File "/usr/local/lib64/python3.6/site-packages/psycopg2/__init__.py", line 130, in connect
    conn = _connect(dsn, connection_factory=connection_factory, **kwasync)
psycopg2.OperationalError: FATAL:  sorry, too many clients already

我可以通过运行sudo /etc/init.d/postgresql restart并重新启动 DAG 来解决这个问题,但是在大约运行三遍后我将再次开始看到错误。

我找不到有关 Airflow 的任何有关此问题的详细信息,但是从我发现的其他帖子(例如此帖子)中,他们说这是因为我的客户(我想在这种情况下是 Airflow)试图打开更多连接到 PostgreSQL 而不是 PostgreSQL 配置为处理的内容。 我运行这个命令发现我的 PostgreSQL 可以接受 100 个连接:

[ec2-user@ip-1-2-3-4 ~]$ sudo su
root@ip-1-2-3-4
[/home/ec2-user]# psql -U postgres
psql (9.2.24)
Type "help" for help.

postgres=# show max_connections;
 max_connections
-----------------
 100
(1 row)

这个解决方案中,帖子说我可以增加我的 PostgreSQL 最大连接数,但我想知道我是否应该在我的 Airflow.cfg 文件中设置一个值,以便我可以将 Airflow 允许的连接大小与我的 PoastgreSQL 最大连接大小相匹配。 有谁知道我可以在 Airflow 中的哪里设置这个值? 以下是我认为相关的领域:

# The SqlAlchemy pool size is the maximum number of database connections
# in the pool.
sql_alchemy_pool_size = 5

# The SqlAlchemy pool recycle is the number of seconds a connection
# can be idle in the pool before it is invalidated. This config does
# not apply to sqlite.
sql_alchemy_pool_recycle = 3600

# The amount of parallelism as a setting to the executor. This defines
# the max number of task instances that should run simultaneously
# on this airflow installation
parallelism = 32

# The number of task instances allowed to run concurrently by the scheduler
dag_concurrency = 32

# When not using pools, tasks are run in the "default pool",
# whose size is guided by this config element
non_pooled_task_slot_count = 128

# The maximum number of active DAG runs per DAG
max_active_runs_per_dag = 32

对解决此问题的任何建议持开放态度。 这与我的 Airflow 配置有关还是与我的 PostgreSQL 配置有关?

此外,因为我正在测试一个新的 DAG,我有时会终止正在运行的任务并重新启动它们。 也许这样做会导致某些进程无法正确终止,并且它们保持与 PostgreSQL 的死连接打开?

2 个回复

遇到类似的问题。 我将 postgres 中的max_connections更改为10000sql_alchemy_pool_size气流配置中的sql_alchemy_pool_size更改为1000 现在我能够并行运行数百个任务。

PS:我的机器有 32 个内核和 60GB 内存。 因此,它承担了负担。

引用气流文档

sql_alchemy_max_overflow :池的最大溢出大小。 当检出的连接数达到 pool_size 中设置的大小时,将返回额外的连接,直至达到此限制。 当这些额外的连接返回到池中时,它们会断开连接并被丢弃。 因此,池允许的同时连接总数是 pool_size + max_overflow,池允许的“休眠”连接总数是 pool_size。 max_overflow 可以设置为 -1 表示没有溢出限制; 并发连接总数没有限制。 默认为 10。

似乎您要在airflow.cfg上设置的变量都是sql_alchemy_pool_sizesql_alchemy_max_overflow 您的 PostgreSQL max_connections必须等于或大于这两个 Airflow 配置变量的总和,因为 Airflow 最多可以有sql_alchemy_pool_size + sql_alchemy_max_overflow打开与您的数据库的连接。

4 PSQLException:FATAL:抱歉,已经有太多客户端

我编写了一个服务器,当客户端发送请求时,该服务器通过slick连接到postgresql。 现在,我有一个客户端每1秒发送一次请求。 问题是经过几次,出现以下错误: 这是我的光滑postgres的配置: } 而postgres配置说max_connection = 10 ...

9 Django+Postgres FATAL:抱歉,已经有太多客户了

我不时收到“致命:抱歉,已经有太多客户”,因为我在 Postgres 中有很多空闲连接,我无法理解它们来自哪里或如何防止它们。 起初我在 Django 中尝试了CONN_MAX_AGE设置,但它似乎没有效果。 我还在 Postgres 中将idle_in_transaction_session_ ...

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2022 STACKOOM.COM