繁体   English   中英

如何为实时数据配置 Apache Flink Cluster (flink-conf.yml) stream

[英]How to configure Apache Flink Cluster (flink-conf.yml) for real time data stream

请帮帮我,我有一个集群 Apache Flink(2 个作业管理器,3 个任务管理器),但我不知道在 flink-conf.yml 中为该参数设置哪些值:

jobmanager.heap.size

taskmanager.heap.size

taskmanager.numberOfTaskSlots

并行度.default

Job Manager 机器有:8CPU,32GB RAM
任务管理器机器有:8CPU,32GB RAM

我打算在这个集群上运行 15..20 Apache Flink Jobs。 由于私人政策我不能在这里写java代码,所以我会尽量用文字说出来。

  • 1)我从 Apache Kafka broker №1 读取数据(它是 JSON 消息)
  • 2)POJO中字节的反序列化数组
  • 3)使用 FilterFunction 我检查 POJO 事件中的一些字段
  • 4)通过 id-field 使用 KeyBy 运算符
  • 5)使用带有状态(valueState 或 mapState)和计时器的 KeyedProcessFunction(我正在使用 HDFS RocksDB state 后端)
  • 6)将POJO序列化为字节数组并发送到Apache Kafka经纪人№2

预计每天将有超过 5000 万个事件发生。 所有作业都将有一个数据源。

我会考虑使用资源管理器来喜欢YARNMesosKubernetes以获得高可用性 简而言之,这就是他们为您所做的

在部署 Flink 应用程序时,Flink 会根据应用程序配置的并行度自动识别所需资源,并向资源管理器请求。 在失败的情况下,Flink 通过请求新资源来替换失败的容器。 提交或控制应用程序的所有通信都通过 REST 调用发生。 这简化了 Flink 在许多环境中的集成。

换句话说,他们可以将集群中的资源按需提供给链接引擎。 并且您在配置您正在寻找的参数方面的麻烦会更少。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM