繁体 English 中英

如何为实时数据配置 Apache Flink Cluster (flink-conf.yml) stream

[英]How to configure Apache Flink Cluster (flink-conf.yml) for real time data stream

原文 2020-06-30 16:58:38 0 1 java/ apache-flink/ flink-streaming

请帮帮我，我有一个集群 Apache Flink（2 个作业管理器，3 个任务管理器），但我不知道在 flink-conf.yml 中为该参数设置哪些值：

jobmanager.heap.size

taskmanager.heap.size

taskmanager.numberOfTaskSlots

并行度.default

Job Manager 机器有：8CPU，32GB RAM
任务管理器机器有：8CPU，32GB RAM

我打算在这个集群上运行 15..20 Apache Flink Jobs。 由于私人政策我不能在这里写java代码，所以我会尽量用文字说出来。

1）我从 Apache Kafka broker №1 读取数据（它是 JSON 消息）
2）POJO中字节的反序列化数组
3）使用 FilterFunction 我检查 POJO 事件中的一些字段
4）通过 id-field 使用 KeyBy 运算符
5）使用带有状态（valueState 或 mapState）和计时器的 KeyedProcessFunction（我正在使用 HDFS RocksDB state 后端）
6）将POJO序列化为字节数组并发送到Apache Kafka经纪人№2

预计每天将有超过 5000 万个事件发生。 所有作业都将有一个数据源。

1 个解决方案

我会考虑使用资源管理器来喜欢YARN 、 Mesos或Kubernetes以获得高可用性。 简而言之，这就是他们为您所做的：

在部署 Flink 应用程序时，Flink 会根据应用程序配置的并行度自动识别所需资源，并向资源管理器请求。 在失败的情况下，Flink 通过请求新资源来替换失败的容器。 提交或控制应用程序的所有通信都通过 REST 调用发生。 这简化了 Flink 在许多环境中的集成。

换句话说，他们可以将集群中的资源按需提供给链接引擎。 并且您在配置您正在寻找的参数方面的麻烦会更少。

在apache flink中获取JSON数据作为输入流

[英]Get JSON data as input stream in apache flink

Apache Flink（集群中的标准输出错误）

[英]Apache Flink (Error in stdout in cluster)

Apache Flink在群集上引发UnknownHostException

[英]Apache Flink throws UnknownHostException on cluster

apache flink 可以用来智能加入庞大的非实时数据吗？

[英]can apache flink be used to join huge non real time data smart?

如何使用Apache Flink按属性和时间窗口计数？

[英]How to count by property and time window with Apache Flink?

Apache Flink：如何从另一个 Stream 调用一个 Stream

[英]Apache Flink : How to Call One Stream from Another Stream

Apache Flink：独立集群尝试使用用户名“flink”进行连接

[英]Apache Flink: Standalone Cluster tries to connect with username “flink”

Apache Flink - 事件时间窗口

[英]Apache Flink - Event time windows

flink如何根据时间过滤数据？

[英]How to filter data using flink according to time?

在Flink中面对竞态条件在Apache Flink中连接流

[英]Facing Race Condition In Flink connected Stream in apache flink

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在apache flink中获取JSON数据作为输入流 Apache Flink（集群中的标准输出错误） Apache Flink在群集上引发UnknownHostException apache flink 可以用来智能加入庞大的非实时数据吗？如何使用Apache Flink按属性和时间窗口计数？ Apache Flink：如何从另一个 Stream 调用一个 Stream Apache Flink：独立集群尝试使用用户名“flink”进行连接 Apache Flink - 事件时间窗口 flink如何根据时间过滤数据？在Flink中面对竞态条件在Apache Flink中连接流

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM