cost 67 ms
当使用 SPARK 读取视图时,在 HUDI 表上创建 Athena 视图会返回软删除记录

[英]Creating an Athena view on a HUDI table returns soft deleted records when the view is read using SPARK

我有多个具有不同列名的 HUDI 表,我在其上构建了一个视图以标准化列名。 从 Athena 读取此视图时,它会返回正确的响应。 但是,当使用 SPARK 使用 spark.read.parquet("<>") 读取相同的视图时,它也会返回软删除的记录。 我知道需要使用 spark.re ...

从 Apache Hudi 表中删除记录,这是使用 AWS Glue Job 和 Kinesis 创建的 Glue 表的一部分

[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis

我目前配置了一个 DynamoDB stream,它在插入/更新发生时将流输入到 Kinesis 数据流中,随后我有 Glue 表,它从上面的 kinesis stream 获取输入,然后显示结构模式,还有一个 Glue 脚本帮助我创建一个可以使用 Athena 访问的 Hudi 表。 我目前能够 ...

Apache Hudi Upsert/Insert/Deletes 同时进行

[英]Apache Hudi Upsert/Insert/Deletes at the same time

我们可以同时对同一张表运行写入操作类型Upsert和Delete吗? Apache Hudi meta 是否已损坏?? 请在这里帮助使用其他解决方案(如果有的话)来做同样的事情。 提前致谢 !! ...

尝试将数据写入文件系统时,带有 Spark 的 Hudi 执行速度非常慢

[英]Hudi with Spark perform very slow when trying to write data into filesystem

我正在通过一个非常简单的演示使用 Spark 尝试 Apache Hudi: 目录下大概有10个parquet文件; 它们的总大小为 1GB,大约 600 万条记录。 但是 Hudi 写的时间很长,失败了org.apache.spark.SparkException: Job aborted due ...

如何加密s3中存在的apache hudi外部表数据通过spark作业同步到hive表中

[英]How to encrypt apache hudi external tables data present in s3 synced into hive tables through spark jobs

技术背景:我正在从 kafka 获取表数据并使用 spark 将其放入 hudi 和 hive 表中。 我正在使用 AWS EMR。 我想加密集群内传输的数据以及 s3 中存在的同步外部表数据(静态数据) 注意:我不想使用 AWS EMR 加密,想使用 spark 或 hudi 加密,不想只坚持 A ...

Hudi 用回溯数据覆盖表格

[英]Hudi overwriting the tables with back date data

我正在将一些初始批量数据推送到一个 hudi 表中,然后每天,我将增量数据写入其中。 但是,如果返回数据到达,则表中已经存在的最新预组合字段将被忽略,到达的预组合字段(较旧的)将其覆盖。 我使用以下配置编写了一个包含以下数据的数据框: 然后在下一次运行中,我更新了以下数据: 并获取此表: 这不应该发 ...

Apache Hudi 创建和 append Dataproc 和 Cloud Storage 上的 Upsert 表(Parquet 格式)

[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage

又是 Dataproc-noob。 我的主要目标是从本地源提取表,将它们作为 Parquet 文件存储在 Cloud Storage 存储桶中,并根据我之前关于 Dataproc 和 Hudi conf 的帖子在 BigQuery 中创建/更新表,我能够通过 Dataproc/PySpark/Hu ...

Apache Hudi on Dataproc

[英]Apache Hudi on Dataproc

是否有在 Dataproc 集群上部署 Apache Hudi 的指南? 我正在尝试通过Hudi 快速入门指南进行部署,但我不能。 火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 启动代码: 尝试: 错误: 编辑 1: 抛出配置错误警告 org.ap ...

如何为 _hoodie_commit_time 元数据列设置自定义 hudi 字段?

[英]How to set custom hudi field for _hoodie_commit_time metadata column?

Hudi 默认基于当前时间摄取时间线。 我想更改此行为并在摄取期间使用我自己的日期时间字段。 我想使用 hudi 表仅存储最新的 state(最后一次提交)。 在某些情况下,数据会出现延迟,但此数据不应覆盖以前的记录(如果它有最新更新)。 我的所有记录都有last_update_time日期时间 ...

flink SQL 将hudi表写入minio s3 bucket报错

[英]Error to write hudi table into minio s3 bucket by flink SQL

问题我正在尝试通过 flink SQL 将 hudi 表写入 minio s3 存储桶,但它失败了。 hudi表创建完成,但只包含元数据 diretory.hoodie 目录树如下: 重现重现该行为的步骤: 创建 Flink Hudi 表 往Hudi表中插入数据 环境说明胡迪版本:0.12.0 ...

如何从 debezium 事件为 SQL 服务器中的更新生成的有效载荷中删除“之前”键

[英]How to remove 'before' key from payload generated by debezium event for updates in SQL server

对于 SQL 服务器中的每次更新,debezium 都会生成带有“之后”和“之前”的事件有效负载。 我想在不压扁有效负载的情况下摆脱“之前”。 用例: 我将 debezium 与 Kafka 和 hudi 一起使用,并创建了一个数据湖,我不需要删除操作,所以我跳过了删除操作。 所以我想通过消除“之前 ...

Pyspark 从 Kafka 流向 Hudi

[英]Pyspark streaming from Kafka to Hudi

我是 hudi 的新手,但遇到了问题。 我正在使用 pyspark、Kafka 在 AWS 中使用 EMR,我想做的是使用 pyspark 流从 Kafka 集群读取主题,然后以 hudi 格式将其移动到 S3。 老实说,自几周前以来我已经尝试了很多,但我不知道这是否可行。 有人可以告诉我吗? 我 ...

读取 Athena 表时,如何在 AWS Glue 作业中排除 S3 上的文件或文件夹路径?

[英]How to exclude either files or folder paths on S3 within an AWS Glue job when reading an Athena table?

我们有一个 AWS Glue 作业试图从 HUDI 填充的 Athena 表中读取数据。 不幸的是,我们遇到了一个与create_dynamic_frame.from_catalog试图从这些表中读取相关的错误。 调用 o82.getDynamicFrame 时出错。 s3://bucket/f ...

我可以仅使用 spark-sql 对 hudi 使用增量查询、时间旅行查询和快照查询吗?

[英]Can I use incremental, time travel, and snapshot queries with hudi only using spark-sql?

我正在尝试使用带有 hudi 的 spark-sql 进行增量查询、快照查询和时间旅行查询,但我能找到的唯一方法是使用 spark.read 创建一个 DataFrame,然后创建一个临时视图。 有没有办法只使用 spark-sql 来完成这个? 这是在 EMR 集群中,版本 6.6.0。 ...

可以使用 Apache Hudi 将一行从 Apache Spark dataframe 插入 Postgres 数据库吗?

[英]Can Apache Hudi be used to upsert a row from Apache Spark dataframe into Postgres database?

问题陈述:Apache Spark 中没有对数据库的更新插入功能,而是我们必须覆盖整个表。 但是 Apache Hudi 可用于在不覆盖整个表的情况下向表中插入一行或多行。 我了解 Apache Hudi 是可以与 S3 一起使用的表/文件格式。 但它也可以与 Postgresdb 或 MySql ...


 
粤ICP备18138465号  © 2020-2023 STACKOOM.COM