
[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:
当我使用 spark 连接到 kafka 主题并创建 dataframe 然后存储到 Hudi 中时: 我收到以下异常: 将所有kafka数据存储到Hudi表中 ...
[英]Spark Streaming HUDI HoodieException: Config conflict(key current value existing value): RecordKey:
当我使用 spark 连接到 kafka 主题并创建 dataframe 然后存储到 Hudi 中时: 我收到以下异常: 将所有kafka数据存储到Hudi表中 ...
[英]Creating an Athena view on a HUDI table returns soft deleted records when the view is read using SPARK
我有多个具有不同列名的 HUDI 表,我在其上构建了一个视图以标准化列名。 从 Athena 读取此视图时,它会返回正确的响应。 但是,当使用 SPARK 使用 spark.read.parquet("<>") 读取相同的视图时,它也会返回软删除的记录。 我知道需要使用 spark.re ...
[英]Deleting records from Apache Hudi Table which is part of Glue Tables created using AWS Glue Job and Kinesis
我目前配置了一个 DynamoDB stream,它在插入/更新发生时将流输入到 Kinesis 数据流中,随后我有 Glue 表,它从上面的 kinesis stream 获取输入,然后显示结构模式,还有一个 Glue 脚本帮助我创建一个可以使用 Athena 访问的 Hudi 表。 我目前能够 ...
[英]Apache Hudi Upsert/Insert/Deletes at the same time
我们可以同时对同一张表运行写入操作类型Upsert和Delete吗? Apache Hudi meta 是否已损坏?? 请在这里帮助使用其他解决方案(如果有的话)来做同样的事情。 提前致谢 !! ...
[英]Hudi with Spark perform very slow when trying to write data into filesystem
我正在通过一个非常简单的演示使用 Spark 尝试 Apache Hudi: 目录下大概有10个parquet文件; 它们的总大小为 1GB,大约 600 万条记录。 但是 Hudi 写的时间很长,失败了org.apache.spark.SparkException: Job aborted due ...
[英]How to encrypt apache hudi external tables data present in s3 synced into hive tables through spark jobs
技术背景:我正在从 kafka 获取表数据并使用 spark 将其放入 hudi 和 hive 表中。 我正在使用 AWS EMR。 我想加密集群内传输的数据以及 s3 中存在的同步外部表数据(静态数据) 注意:我不想使用 AWS EMR 加密,想使用 spark 或 hudi 加密,不想只坚持 A ...
[英]Hudi overwriting the tables with back date data
我正在将一些初始批量数据推送到一个 hudi 表中,然后每天,我将增量数据写入其中。 但是,如果返回数据到达,则表中已经存在的最新预组合字段将被忽略,到达的预组合字段(较旧的)将其覆盖。 我使用以下配置编写了一个包含以下数据的数据框: 然后在下一次运行中,我更新了以下数据: 并获取此表: 这不应该发 ...
[英]Apache Hudi create and append Upsert table (Parquet-format) on Dataproc & Cloud Storage
又是 Dataproc-noob。 我的主要目标是从本地源提取表,将它们作为 Parquet 文件存储在 Cloud Storage 存储桶中,并根据我之前关于 Dataproc 和 Hudi conf 的帖子在 BigQuery 中创建/更新表,我能够通过 Dataproc/PySpark/Hu ...
[英]Apache Hudi on Dataproc
是否有在 Dataproc 集群上部署 Apache Hudi 的指南? 我正在尝试通过Hudi 快速入门指南进行部署,但我不能。 火花 3.1.1 Python 3.8.13 Debian 5.10.127 x86_64 启动代码: 尝试: 错误: 编辑 1: 抛出配置错误警告 org.ap ...
[英]How to set custom hudi field for _hoodie_commit_time metadata column?
Hudi 默认基于当前时间摄取时间线。 我想更改此行为并在摄取期间使用我自己的日期时间字段。 我想使用 hudi 表仅存储最新的 state(最后一次提交)。 在某些情况下,数据会出现延迟,但此数据不应覆盖以前的记录(如果它有最新更新)。 我的所有记录都有last_update_time日期时间 ...
[英]Error to write hudi table into minio s3 bucket by flink SQL
问题我正在尝试通过 flink SQL 将 hudi 表写入 minio s3 存储桶,但它失败了。 hudi表创建完成,但只包含元数据 diretory.hoodie 目录树如下: 重现重现该行为的步骤: 创建 Flink Hudi 表 往Hudi表中插入数据 环境说明胡迪版本:0.12.0 ...
[英]How to insert struct, map type in Apache Hudi
我看官方文档,没有关于插入struct和map等复杂类型的示例。 那么,语法是什么? 我的表定义:spark-sql> desc struct_map; _hoodie_commit_time string NULL _hoodie_commit_seqno string N ...
[英]How to remove 'before' key from payload generated by debezium event for updates in SQL server
对于 SQL 服务器中的每次更新,debezium 都会生成带有“之后”和“之前”的事件有效负载。 我想在不压扁有效负载的情况下摆脱“之前”。 用例: 我将 debezium 与 Kafka 和 hudi 一起使用,并创建了一个数据湖,我不需要删除操作,所以我跳过了删除操作。 所以我想通过消除“之前 ...
[英]Pyspark streaming from Kafka to Hudi
我是 hudi 的新手,但遇到了问题。 我正在使用 pyspark、Kafka 在 AWS 中使用 EMR,我想做的是使用 pyspark 流从 Kafka 集群读取主题,然后以 hudi 格式将其移动到 S3。 老实说,自几周前以来我已经尝试了很多,但我不知道这是否可行。 有人可以告诉我吗? 我 ...
[英]How to exclude either files or folder paths on S3 within an AWS Glue job when reading an Athena table?
我们有一个 AWS Glue 作业试图从 HUDI 填充的 Athena 表中读取数据。 不幸的是,我们遇到了一个与create_dynamic_frame.from_catalog试图从这些表中读取相关的错误。 调用 o82.getDynamicFrame 时出错。 s3://bucket/f ...
[英]Can I use incremental, time travel, and snapshot queries with hudi only using spark-sql?
我正在尝试使用带有 hudi 的 spark-sql 进行增量查询、快照查询和时间旅行查询,但我能找到的唯一方法是使用 spark.read 创建一个 DataFrame,然后创建一个临时视图。 有没有办法只使用 spark-sql 来完成这个? 这是在 EMR 集群中,版本 6.6.0。 ...
[英]How to add Hudi Package to local AWS Glue Interactive Notebook
我已经按照https://docs.aws.amazon.com/glue/latest/dg/interactive-sessions.html在本地设置了 Glue Interactive 会话但是,我无法向交互式 session 添加任何其他包,例如 HUDI 有一些神奇的命令可以使用,但不 ...
[英]org.apache.flink.table.api.TableException: Unsupported query: Merge Into
我正在从事 Flink 流式传输工作,我需要在 Hudi 表中插入数据。 我正在使用合并到查询中来更新 Hudi 表中的数据。 此查询在 spark-shell 中运行良好。 But it is giving me Exception in thread "main" org.apache.fli ...
[英]Can Apache Hudi be used to upsert a row from Apache Spark dataframe into Postgres database?
问题陈述:Apache Spark 中没有对数据库的更新插入功能,而是我们必须覆盖整个表。 但是 Apache Hudi 可用于在不覆盖整个表的情况下向表中插入一行或多行。 我了解 Apache Hudi 是可以与 S3 一起使用的表/文件格式。 但它也可以与 Postgresdb 或 MySql ...