cost 239 ms
如何向現有增量表添加新分區?

[英]How to add new partition to existing delta table?

我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...

無法在本地運行 PySpark(Kafka 到 Delta)並獲取 SparkException:找不到目錄“spark_catalog”的目錄插件 class

[英]Unable to run PySpark (Kafka to Delta) in local and getting SparkException: Cannot find catalog plugin class for catalog 'spark_catalog'

我正在嘗試編寫一個 PySpark 代碼來讀取 Kafka 主題並發布到 Delta 表。 但它不起作用。 示例代碼: 命令:星火版本:3.3.1 安慰: 在運行此代碼之前,我是否需要指定目錄和模式? 這樣做的最佳做法是什么? ...

使用 Delta Lake 運行 Spark 時如何修復 org.apache.spark.sql.internal.SQLConf$.PARQUET_FIELD_ID_READ_ENABLED()?

[英]How to fix org.apache.spark.sql.internal.SQLConf$.PARQUET_FIELD_ID_READ_ENABLED() when running Spark with Delta Lake?

我正在按照這里關於如何使用 spark 訪問 Delta Lake house 的教程進行操作,但似乎無法正常工作。 我有以下依賴項: 我的代碼是:package org.example; import org.apache.spark.sql.SparkSession; import org.a ...

涉及insert、update、delete的delta表如何合並dataframe?

[英]How to merge dataframe in delta table involving insert, update and delete?

我想填充包含一些列的增量表,其中一列用作分區,另一列是“主鍵”(基因)。 所以,Dependend 必須對其記錄的數據進行插入、更新或刪除,就像這樣: 增量表: 疾病基因價值結腸癌 abn1 0.12 乳腺癌 agt2 0.02 結腸癌 zn1t 0.69 Dataframe 表,其中包含 ...

Synapse 無服務器池查詢以前版本的增量表

[英]Synapse serverless pool to query delta table previous versions

我們可以使用 Synapse 無服務器池(內置)來查詢增量文件的先前版本嗎? 我熱衷於類似於我們在 Databricks 中所做的 SQL 聲明: OPENROWSET 支持是否支持“版本選擇”選項? 如果不可能,將增量表注冊到外部托管表有幫助嗎? ...

使用 Delta (spark) 的插入模式不匹配

[英]Schema mismatch on insert using Delta (spark)

我已經開始在 EMR 6.9 上嘗試使用 Delta,並且我正在嘗試執行一些基本操作以確保適用性。 當我使用 Spark Sql 創建表然后插入數據時出現錯誤: 這是非常簡單的代碼: 我已經嘗試在插入中提供字段名稱,因為這看起來是問題所在,例如: 但是會產生同樣的錯誤。 對 delta-lake n ...

膠水無法識別 Delta Lake Python 庫

[英]Glue not able to recognize Delta Lake Python Library

我正在嘗試在我的 Glue 作業中使用 Delta Lake Python 庫。 但是,我的 Glue 作業無法識別它,並且出現錯誤“NameError:name 'DeltaTable' is not defined”。 根據 Glue-DeltaLake 文檔,我添加了參數 --datalake ...

從 delta lake 手動刪除數據文件

[英]Manually Deleted data file from delta lake

我已經從 delta lake 中手動刪除了一個數據文件,現在下面的命令出錯了 錯誤 我試過重新啟動集群但沒有運氣也嘗試了下面的 有關修復事務日志或修復錯誤的任何幫助 ...

在 ADF 中將 DateTime 列轉換為字符串

[英]converting a DateTime column to string in ADF

我正在嘗試在 ADF 中構建一個完全參數化的管道模板。 通過我目前所做的工作,我可以毫無問題地完成全部負載,但是當涉及到增量負載時,我的查詢似乎不起作用。 我相信這樣做的原因是我的“where”語句看起來有點像這樣: 其中“max_watermarkcolumn_loaded”是日期時間格式,“活動 ...

如何可靠地獲取delta表的分區列

[英]How to reliably obtain partition columns of delta table

我需要獲取 delta 表的分區列,但是DESCRIBE delta.`my_table`的返回結果在 databricks 和本地 PyCharm 上返回不同的結果。 最小的例子: 在數據塊上顯示分區列: 但是當在 PyCharm 中本地運行時,我得到以下不同的 output: 解析這兩種類型的返 ...

Azure Data Studio:無法列出 _delta_log/*.*'

[英]Azure Data Studio: _delta_log/*.*' cannot be listed

我正在嘗試使用 Azure Synapse Serverless SQL 池查詢我的增量表。 使用 SQL 管理員憑據登錄 Azure Data Studio。 這是我嘗試進行的對table的簡單查詢: 我收到錯誤: 如果我查詢任何其他表,例如table_copy我沒有錯誤。 我可以查詢我擁有的每 ...

Synapse Lake 數據庫視圖在 SQL 池中不可用?

[英]Synapse Lake database view not available in SQL Pool?

目前探索在 Synapse 中使用 Spark notebooks 進行數據轉換而不是數據流,但 lake db 功能有點令人困惑。 我在 Synapse Workspace 中使用筆記本創建了一個湖數據庫、一個外部表(目錄?)和一個視圖。 該視圖在 Synapse UI 中可見,我可以查詢它。 ...

具有格式(增量)的 streamWriter 未生成增量表

[英]streamWriter with format(delta) is not producing a delta table

我在數據塊中使用 AutoLoader。 但是,當我將 stream 保存為增量表時,生成的表不是增量表。 為什么生成的表不是增量格式? 如果我嘗試使用spark.read(table_name)讀取表,它可以工作,但如果我嘗試使用 Redash 或內置數據塊的“數據”選項卡,它會產生錯誤,並且架構 ...

對 delta 表寄予厚望

[英]great expectation with delta table

我正在嘗試在 Databricks 的增量表上運行一個很好的期望套件。 但是我想通過查詢在表的一部分上運行它。 盡管驗證運行良好,但它是在完整的表數據上運行的。 我知道我可以加載 Dataframe 並將其傳遞給批處理請求,但我想直接通過查詢加載數據。 上面的批處理請求加載忽略查詢選項的數據。 有沒 ...

NoSuchMethodError:org.apache.spark.sql.catalyst.plans.logical.DeleteFromTable in Intellij

[英]NoSuchMethodError: org.apache.spark.sql.catalyst.plans.logical.DeleteFromTable in Intellij

我正在嘗試使用.delete()方法從增量表中刪除一條記錄,如下所示: 當我在 Intellij 中運行我的代碼時,出現以下異常: 我讀到問題是我需要傳遞以下兩個參數: 所以我嘗試通過幾種不同的方式傳遞它們但沒有成功: 首先在構建 spark session 時: 也作為 Intellij 本身的 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM