繁体 English 中英

使用 Apache Beam 处理非结构化数据的最佳实践

[英]Best Practice for processing unstructured data with Apache Beam

原文 2021-10-19 22:31:37 7 2 python/ architecture/ airflow/ etl/ apache-beam

我们使用 Airflow 进行作业调度，并为 ETL 步骤调用 Apache Beam。 数据源是非结构化文件（批处理），需要对其进行解析才能将其转换为 PCollections。 在我看来，可用的两个最佳选择是：

将预处理节点添加到 Airflow DAG 以解析文件并写入 Parquet 文件，然后由 Beam 处理。
在 Beam 中编写自定义 IO 连接器来解析非结构化文件并创建 PCollection。

哪个选项更适合 Beam 最佳实践？

2 个解决方案

如果您以后需要将这些文件重新用于其他管道，并且解析这些非结构化文件需要花费大量时间，我会投票支持 1)。

另一方面，如果解析这些文件可以并行运行并且您不需要等待所有文件都准备好，那么我会选择 2)。

无论如何，我认为这将取决于您的需求和输入数据。

在我看来，ETL 最重要的部分不是它完美运行时的作用； 但是你如何处理拒绝（错误、不完整的数据等）。

如果您可以重用代码，那么#1 可以工作，但我打赌是#2，因为处理 ETL 的所有代码都放在一起。

如果您不想编写 customIO 但想执行一些外部应用程序来解析数据，您可以使用自定义 docker 容器进行数据流作业。

Apache Beam用于音频信号/流处理

[英]Apache Beam for audio signal/stream processing

处理Apache梁中的列？主要向前填充

[英]processing columns in apache beam? mainly forward fill

Apache Beam中的批处理，开销很大

[英]Batch Processing in Apache Beam with large overhead

apache beam python sdk是否可以进行状态处理？

[英]Is stateful processing possible with the apache beam python sdk?

Python Apache Beam 多输出和处理

[英]Python Apache Beam Multiple Outputs & Processing

在apache梁中聚合窗口中的数据

[英]Aggregating data in a window in apache beam

如何通过 Apache Beam 管道测量元素处理时间？

[英]How to measure element processing time by apache beam pipeline?

将公共 http csv 数据读入 Apache Beam

[英]read public http csv data into Apache Beam

使用 OpenCV 处理一批连续图像的最佳实践

[英]Best practice for processing a batch of sequential images with OpenCV

是否可以将批处理数据与 Apache 光束中的流数据结合起来？

[英]Is it possible to join batch data with streaming data in Apache beam?

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 Apache Beam用于音频信号/流处理处理Apache梁中的列？主要向前填充 Apache Beam中的批处理，开销很大 apache beam python sdk是否可以进行状态处理？ Python Apache Beam 多输出和处理在apache梁中聚合窗口中的数据如何通过 Apache Beam 管道测量元素处理时间？将公共 http csv 数据读入 Apache Beam 使用 OpenCV 处理一批连续图像的最佳实践是否可以将批处理数据与 Apache 光束中的流数据结合起来？

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM