cost 103 ms
Azure 数据工厂 DataFlow 错误:键分区不允许计算列 - Azure Data Factory DataFlow Error: Key partitioning does not allow computed columns

我们有一个适用于许多表的通用数据流,在运行时检测模式。 我们正在尝试为增量的摄取或接收器部分添加一个分区列。 我们收到错误:Azure 数据工厂 DataFlow 错误:键分区不允许计算列作业失败,原因是:源“摄取”(第 7 行/第 0 行):键分区不允许计算列我们可以将分区列作为参数传递给通 ...

无法读取 Spark 在 Hive 或 Dbeaver/JDBC 中创建的增量表 - Cannot read Delta tables created by Spark in Hive or Dbeaver/JDBC

我使用了 Spark 3.3.1,配置了 delta-core_2.12.2.2.0 和 delta-storage-2.2.0,在外部数据库中创建了多个表。 在该数据库中,我有几个增量表,通过 Spark 创建和填充,例如: 然后,我可以立即解决它: 一切正常。 当我尝试通过 hive 或 dbe ...

无法通过 JupyterLab 中的 SPYLON-KERNEL 读取 DELTA 文件:java.lang.ClassCastException - Unable to read DELTA files via SPYLON-KERNEL in JupyterLab: java.lang.ClassCastException

无法通过 JupyterLab 中的 spylon kernel 读取增量文件。 在尝试通过 JupyterLab 中的 spylon kernel 读取增量文件时,我遇到了如下所示的 java.lang.ClassCastException 错误,我还测试了其他版本,它们都会导致相同的错误。 重 ...

每当更新任何记录时更新增量表 - Delta table update whenever any record gets updated

我在数据湖存储上创建了一个 databricks 增量表,其中包含如下所示的数据。 目前我每天都在运行这个脚本来覆盖 databrcicks 中的完整表。 但我的要求是,只有在该特定记录发生任何更改时才应更新此记录,否则将其保留。 如果有任何新记录,则必须添加。 例如:下面是我在运行脚本时得到的输入 ...

如何从 Azure 数据湖转换,数据按日期文件夹分区到增量湖 - How can I transition from Azure Data Lake, with data partitioned by date folders into delta lake

我拥有一个 azure 数据湖 gen2,其数据按日期时间嵌套文件夹进行分区。 我想为我的团队提供 delta Lake 格式,但我不确定是否应该创建一个新的存储帐户并将数据复制为 delta 格式,或者将当前的 azure 数据湖转换为 delta Lake 格式是否是最佳实践。 有人可以就此事提 ...

sha 指针问题 ["error": "--from 不是有效的 sha 指针:\"origin/master\"",] - Problem with sha pointer ["error": "--from is not a valid sha pointer: \"origin/master\"",]

我只想部署更改的文件(根据文档: https://github.com/scolladon/sfdx-git-delta ) 我添加到 bitbucket-pipelines.yml: 没有 git 差异我收到一个错误: } 当我添加 git diff 我收到这个: 有任何想法吗? 我尝试使用不 ...

按进程的增量表访问限制 - Delta Table Access Restriction by Process

是否可以根据进程或客户端 ID 限制对 Delta 表的访问? 这是我的场景: 我有一个写入增量表的流式作业,有时由于数据工程师执行的手动操作触发的并发问题或合并冲突,作业失败。 我的想法是,当有人尝试进行不是被授予的合并(流式应用程序客户端)时,除非流式作业暂停或停止,否则“表”不应允许它! 有什 ...

Azure Databricks 增量表与 Azure Synapse Lake 数据库表 - Azure Databricks Delta Table vs Azure Synapse Lake Database Table

我在这里努力理解一些东西,我确定答案很简单......当我在 Databrick 笔记本中运行这个命令时: 它创建一个增量表。 好,太棒了! 但是如果我在 azure synapse spark notebook 中运行相同的命令......它会创建一个表...... Synapse 现在是否支 ...

使用 synapse 和 pyspark 在数据湖中将批处理数据合并为增量格式? - Combine batch data to delta format in a data lake using synapse and pyspark?

我目前有一个数据湖,在数据湖的青铜层中有几个每日间隔的数据表。 它们采用 csv 格式,并且定期将新的每日 csv 表摄取到青铜文件夹中。 我想对它们进行转换,例如编辑一些行,更改列名并在银层中保存为增量格式。 使用 Synapse Analytics 和 pyspark 时的最佳实践是什么? 到 ...

Delta Table Merge Operation logs 输出的更新记录数不正确? - Delta Table Merge Operation logs Output is not correct number of updated records?

我正在 spark 中对我的 delta 表执行合并操作。 我有现有的增量表,它已经有一些记录。 现在我创建了另一个 csv 文件的数据框,并在其中添加了一条新记录并更新了一条记录。 请检查下面的片段。 (df_source) 是更新的表(临时视图) 现在执行合并操作后。 此处生成的日志在更新 ...

在火花流中的增量表中插入和删除 - upsert and delete in delta table in spark streaming

我对结构化流媒体有点陌生。 如果你能帮助我,那就太好了。 提前致谢。 我有一个批处理文件(假设为 csv),我们将其转换为每条记录 1 个事件并将其发送到 Azure 事件中心(与 Kafka 主题相同)。 我们正在阅读它,进行一些数据质量检查并存储到增量表中。 但在存储到 delta 表之前,我们 ...

Databricks Delta Live Tables - 应用增量表中的更改 - Databricks Delta Live Tables - Apply Changes from delta table

我正在使用 Databricks Delta Live Tables,但是在上游插入一些表时遇到了一些问题。 我知道下面的文字很长,但我试图尽可能清楚地描述我的问题。 如果某些部分不清楚,请告诉我。 我有以下表格和流程: Landing_zone -> 这是一个文件夹,其中添加了 JSON ...


 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM