标签[delta] - 堆栈内存溢出

Azure 数据工厂 DataFlow 错误：键分区不允许计算列 - Azure Data Factory DataFlow Error: Key partitioning does not allow computed columns

我们有一个适用于许多表的通用数据流，在运行时检测模式。我们正在尝试为增量的摄取或接收器部分添加一个分区列。我们收到错误：Azure 数据工厂 DataFlow 错误：键分区不允许计算列作业失败，原因是：源“摄取”（第 7 行/第 0 行）：键分区不允许计算列我们可以将分区列作为参数传递给通 ...

无法读取 Spark 在 Hive 或 Dbeaver/JDBC 中创建的增量表 - Cannot read Delta tables created by Spark in Hive or Dbeaver/JDBC

我使用了 Spark 3.3.1，配置了 delta-core_2.12.2.2.0 和 delta-storage-2.2.0，在外部数据库中创建了多个表。在该数据库中，我有几个增量表，通过 Spark 创建和填充，例如：然后，我可以立即解决它：一切正常。当我尝试通过 hive 或 dbe ...

无法通过 JupyterLab 中的 SPYLON-KERNEL 读取 DELTA 文件：java.lang.ClassCastException - Unable to read DELTA files via SPYLON-KERNEL in JupyterLab: java.lang.ClassCastException

无法通过 JupyterLab 中的 spylon kernel 读取增量文件。在尝试通过 JupyterLab 中的 spylon kernel 读取增量文件时，我遇到了如下所示的 java.lang.ClassCastException 错误，我还测试了其他版本，它们都会导致相同的错误。重 ...

如何在本地 spark 集群模式下使用 delta 缓存功能？ - How can I use delta cache function in local spark cluster mode?

我想在本地集群模式下测试delta-cache (jupyter) 1.我想做什么：不会每次都重新下载整个 delta 格式的文件，只会重新下载新数据 2.我试过的... # cell1 spark.conf.set("spark.databricks.io.cache.enabled", " ...

查找 Pyspark 中每 2 列之间的增量 - Find delta between every 2 columns in Pyspark

我试图找到具有 100 多列的 pyspark dataframe 中每两列之间的差异。如果它更少，我可以每次通过执行df.withColumn('delta', df.col1 - df.col2)手动创建一个新列，但我正在尝试以更简洁的方式执行此操作。有任何想法吗？ col1 col2 ...

创建 1GB 分区 Spark SQL - Create 1GB partitions Spark SQL

使用 spark 在 S3 中写入时，我试图将我的数据拆分为 1GB。我尝试的方法是以 GB 为单位计算 DeltaTable 的大小（define_coalesce 函数），四舍五入，并使用该数字在 S3 中写入：我正在尝试这种方式，因为我们的 Delta 是开源的，我们没有内置优化方法。 ...

每当更新任何记录时更新增量表 - Delta table update whenever any record gets updated

我在数据湖存储上创建了一个 databricks 增量表，其中包含如下所示的数据。目前我每天都在运行这个脚本来覆盖 databrcicks 中的完整表。但我的要求是，只有在该特定记录发生任何更改时才应更新此记录，否则将其保留。如果有任何新记录，则必须添加。例如：下面是我在运行脚本时得到的输入 ...

如何从 Azure 数据湖转换，数据按日期文件夹分区到增量湖 - How can I transition from Azure Data Lake, with data partitioned by date folders into delta lake

我拥有一个 azure 数据湖 gen2，其数据按日期时间嵌套文件夹进行分区。我想为我的团队提供 delta Lake 格式，但我不确定是否应该创建一个新的存储帐户并将数据复制为 delta 格式，或者将当前的 azure 数据湖转换为 delta Lake 格式是否是最佳实践。有人可以就此事提 ...

进行增量表更新时如何进行算术运算？ - How to do arithmetic operations when doing delta table updates?

我有一个 delta 表old ，我想将它与new合并。在new表中， old表中也存在一些id值。我想通过总结old表和new表的cons值来更新重叠id的cons值。怎么做？ ...

sha 指针问题 ["error": "--from 不是有效的 sha 指针：\"origin/master\"",] - Problem with sha pointer ["error": "--from is not a valid sha pointer: \"origin/master\"",]

我只想部署更改的文件（根据文档： https://github.com/scolladon/sfdx-git-delta ）我添加到 bitbucket-pipelines.yml：没有 git 差异我收到一个错误： } 当我添加 git diff 我收到这个：有任何想法吗？我尝试使用不 ...

按进程的增量表访问限制 - Delta Table Access Restriction by Process

是否可以根据进程或客户端 ID 限制对 Delta 表的访问？这是我的场景：我有一个写入增量表的流式作业，有时由于数据工程师执行的手动操作触发的并发问题或合并冲突，作业失败。我的想法是，当有人尝试进行不是被授予的合并（流式应用程序客户端）时，除非流式作业暂停或停止，否则“表”不应允许它！有什 ...

使用 Delta 格式覆盖 spark 数据帧写入方法中的特定分区 - Overwrite specific partitions in spark dataframe write method with Delta format

使用 Parquet 格式时可以通过以下设置覆盖特定分区，而不影响其他分区文件夹中的数据但这不适用于 Databricks 中的 Delta 格式。让我知道如何以增量格式处理此问题 ...

从 adls gen 2 Delta 文件中删除失败并出现错误 - Delete from adls gen 2 Delta files fails with error

我有使用databricks sql从增量文件中删除重复记录的要求。以下是我的查询但它给出了以下错误 com.databricks.backend.common.rpc.DatabricksExceptions$SQLExecutionException: java.util.NoSuch ...

Azure Databricks 增量表与 Azure Synapse Lake 数据库表 - Azure Databricks Delta Table vs Azure Synapse Lake Database Table

我在这里努力理解一些东西，我确定答案很简单......当我在 Databrick 笔记本中运行这个命令时：它创建一个增量表。好，太棒了！但是如果我在 azure synapse spark notebook 中运行相同的命令......它会创建一个表...... Synapse 现在是否支 ...

在创建增量格式时在 Databricks 上获取 AnalysisException - Getting AnalysisException on Databricks while create delta format

我正在尝试将数据框写为 . delta格式但得到“ AnalysisExcpetion ” 代码： ** 当格式为 'delta' 时，可以写为 'csv' 出错任何线索？ ...

使用 synapse 和 pyspark 在数据湖中将批处理数据合并为增量格式？ - Combine batch data to delta format in a data lake using synapse and pyspark?

我目前有一个数据湖，在数据湖的青铜层中有几个每日间隔的数据表。它们采用 csv 格式，并且定期将新的每日 csv 表摄取到青铜文件夹中。我想对它们进行转换，例如编辑一些行，更改列名并在银层中保存为增量格式。使用 Synapse Analytics 和 pyspark 时的最佳实践是什么？到 ...

将“IDENTITY”列添加到现有增量表（Databricks） - Adding an `IDENTITY` column to an existing delta table (Databricks)

如何将标识列添加到现有增量表。似乎不支持。 ...

Delta Table Merge Operation logs 输出的更新记录数不正确？ - Delta Table Merge Operation logs Output is not correct number of updated records?

我正在 spark 中对我的 delta 表执行合并操作。我有现有的增量表，它已经有一些记录。现在我创建了另一个 csv 文件的数据框，并在其中添加了一条新记录并更新了一条记录。请检查下面的片段。 (df_source) 是更新的表（临时视图）现在执行合并操作后。此处生成的日志在更新 ...

在火花流中的增量表中插入和删除 - upsert and delete in delta table in spark streaming

我对结构化流媒体有点陌生。如果你能帮助我，那就太好了。提前致谢。我有一个批处理文件（假设为 csv），我们将其转换为每条记录 1 个事件并将其发送到 Azure 事件中心（与 Kafka 主题相同）。我们正在阅读它，进行一些数据质量检查并存储到增量表中。但在存储到 delta 表之前，我们 ...

Databricks Delta Live Tables - 应用增量表中的更改 - Databricks Delta Live Tables - Apply Changes from delta table

我正在使用 Databricks Delta Live Tables，但是在上游插入一些表时遇到了一些问题。我知道下面的文字很长，但我试图尽可能清楚地描述我的问题。如果某些部分不清楚，请告诉我。我有以下表格和流程： Landing_zone -> 这是一个文件夹，其中添加了 JSON ...