我们有一个适用于许多表的通用数据流,在运行时检测模式。 我们正在尝试为增量的摄取或接收器部分添加一个分区列。 我们收到错误:Azure 数据工厂 DataFlow 错误:键分区不允许计算列作业失败,原因是:源“摄取”(第 7 行/第 0 行):键分区不允许计算列我们可以将分区列作为参数传递给通 ...
我们有一个适用于许多表的通用数据流,在运行时检测模式。 我们正在尝试为增量的摄取或接收器部分添加一个分区列。 我们收到错误:Azure 数据工厂 DataFlow 错误:键分区不允许计算列作业失败,原因是:源“摄取”(第 7 行/第 0 行):键分区不允许计算列我们可以将分区列作为参数传递给通 ...
我使用了 Spark 3.3.1,配置了 delta-core_2.12.2.2.0 和 delta-storage-2.2.0,在外部数据库中创建了多个表。 在该数据库中,我有几个增量表,通过 Spark 创建和填充,例如: 然后,我可以立即解决它: 一切正常。 当我尝试通过 hive 或 dbe ...
无法通过 JupyterLab 中的 spylon kernel 读取增量文件。 在尝试通过 JupyterLab 中的 spylon kernel 读取增量文件时,我遇到了如下所示的 java.lang.ClassCastException 错误,我还测试了其他版本,它们都会导致相同的错误。 重 ...
我想在本地集群模式下测试delta-cache (jupyter) 1.我想做什么: 不会每次都重新下载整个 delta 格式的文件,只会重新下载新数据 2.我试过的... # cell1 spark.conf.set("spark.databricks.io.cache.enabled", " ...
我试图找到具有 100 多列的 pyspark dataframe 中每两列之间的差异。 如果它更少,我可以每次通过执行df.withColumn('delta', df.col1 - df.col2)手动创建一个新列,但我正在尝试以更简洁的方式执行此操作。 有任何想法吗? col1 col2 ...
使用 spark 在 S3 中写入时,我试图将我的数据拆分为 1GB。 我尝试的方法是以 GB 为单位计算 DeltaTable 的大小(define_coalesce 函数),四舍五入,并使用该数字在 S3 中写入: 我正在尝试这种方式,因为我们的 Delta 是开源的,我们没有内置优化方法。 ...
我在数据湖存储上创建了一个 databricks 增量表,其中包含如下所示的数据。 目前我每天都在运行这个脚本来覆盖 databrcicks 中的完整表。 但我的要求是,只有在该特定记录发生任何更改时才应更新此记录,否则将其保留。 如果有任何新记录,则必须添加。 例如:下面是我在运行脚本时得到的输入 ...
我拥有一个 azure 数据湖 gen2,其数据按日期时间嵌套文件夹进行分区。 我想为我的团队提供 delta Lake 格式,但我不确定是否应该创建一个新的存储帐户并将数据复制为 delta 格式,或者将当前的 azure 数据湖转换为 delta Lake 格式是否是最佳实践。 有人可以就此事提 ...
我有一个 delta 表old ,我想将它与new合并。 在new表中, old表中也存在一些id值。 我想通过总结old表和new表的cons值来更新重叠id的cons值。 怎么做? ...
我只想部署更改的文件(根据文档: https://github.com/scolladon/sfdx-git-delta ) 我添加到 bitbucket-pipelines.yml: 没有 git 差异我收到一个错误: } 当我添加 git diff 我收到这个: 有任何想法吗? 我尝试使用不 ...
是否可以根据进程或客户端 ID 限制对 Delta 表的访问? 这是我的场景: 我有一个写入增量表的流式作业,有时由于数据工程师执行的手动操作触发的并发问题或合并冲突,作业失败。 我的想法是,当有人尝试进行不是被授予的合并(流式应用程序客户端)时,除非流式作业暂停或停止,否则“表”不应允许它! 有什 ...
使用 Parquet 格式时可以通过以下设置覆盖特定分区,而不影响其他分区文件夹中的数据 但这不适用于 Databricks 中的 Delta 格式。 让我知道如何以增量格式处理此问题 ...
我有使用databricks sql从增量文件中删除重复记录的要求。 以下是我的查询 但它给出了以下错误 com.databricks.backend.common.rpc.DatabricksExceptions$SQLExecutionException: java.util.NoSuch ...
我在这里努力理解一些东西,我确定答案很简单......当我在 Databrick 笔记本中运行这个命令时: 它创建一个增量表。 好,太棒了! 但是如果我在 azure synapse spark notebook 中运行相同的命令......它会创建一个表...... Synapse 现在是否支 ...
我正在尝试将数据框写为 . delta格式但得到“ AnalysisExcpetion ” 代码: ** 当格式为 'delta' 时,可以写为 'csv' 出错 任何线索? ...
我目前有一个数据湖,在数据湖的青铜层中有几个每日间隔的数据表。 它们采用 csv 格式,并且定期将新的每日 csv 表摄取到青铜文件夹中。 我想对它们进行转换,例如编辑一些行,更改列名并在银层中保存为增量格式。 使用 Synapse Analytics 和 pyspark 时的最佳实践是什么? 到 ...
如何将标识列添加到现有增量表。 似乎不支持。 ...
我正在 spark 中对我的 delta 表执行合并操作。 我有现有的增量表,它已经有一些记录。 现在我创建了另一个 csv 文件的数据框,并在其中添加了一条新记录并更新了一条记录。 请检查下面的片段。 (df_source) 是更新的表(临时视图) 现在执行合并操作后。 此处生成的日志在更新 ...
我对结构化流媒体有点陌生。 如果你能帮助我,那就太好了。 提前致谢。 我有一个批处理文件(假设为 csv),我们将其转换为每条记录 1 个事件并将其发送到 Azure 事件中心(与 Kafka 主题相同)。 我们正在阅读它,进行一些数据质量检查并存储到增量表中。 但在存储到 delta 表之前,我们 ...
我正在使用 Databricks Delta Live Tables,但是在上游插入一些表时遇到了一些问题。 我知道下面的文字很长,但我试图尽可能清楚地描述我的问题。 如果某些部分不清楚,请告诉我。 我有以下表格和流程: Landing_zone -> 这是一个文件夹,其中添加了 JSON ...