[英]How to add new partition to existing delta table?
我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...
[英]How to add new partition to existing delta table?
我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...
[英]How to resolve `Value for one of the query parameters specified in the request URI is invalid` error?
我正在嘗試在 ALDS gen2 容器中創建鑲木地板文件,但失敗並出現以下錯誤Status code 400, "{"error":{"code":"InvalidQueryParameterValue","message":"Value for one of the query paramete ...
[英]Unable to run PySpark (Kafka to Delta) in local and getting SparkException: Cannot find catalog plugin class for catalog 'spark_catalog'
我正在嘗試編寫一個 PySpark 代碼來讀取 Kafka 主題並發布到 Delta 表。 但它不起作用。 示例代碼: 命令:星火版本:3.3.1 安慰: 在運行此代碼之前,我是否需要指定目錄和模式? 這樣做的最佳做法是什么? ...
[英]How to fix org.apache.spark.sql.internal.SQLConf$.PARQUET_FIELD_ID_READ_ENABLED() when running Spark with Delta Lake?
我正在按照這里關於如何使用 spark 訪問 Delta Lake house 的教程進行操作,但似乎無法正常工作。 我有以下依賴項: 我的代碼是:package org.example; import org.apache.spark.sql.SparkSession; import org.a ...
[英]How to merge dataframe in delta table involving insert, update and delete?
我想填充包含一些列的增量表,其中一列用作分區,另一列是“主鍵”(基因)。 所以,Dependend 必須對其記錄的數據進行插入、更新或刪除,就像這樣: 增量表: 疾病基因價值結腸癌 abn1 0.12 乳腺癌 agt2 0.02 結腸癌 zn1t 0.69 Dataframe 表,其中包含 ...
[英]Synapse serverless pool to query delta table previous versions
我們可以使用 Synapse 無服務器池(內置)來查詢增量文件的先前版本嗎? 我熱衷於類似於我們在 Databricks 中所做的 SQL 聲明: OPENROWSET 支持是否支持“版本選擇”選項? 如果不可能,將增量表注冊到外部托管表有幫助嗎? ...
[英]Schema mismatch on insert using Delta (spark)
我已經開始在 EMR 6.9 上嘗試使用 Delta,並且我正在嘗試執行一些基本操作以確保適用性。 當我使用 Spark Sql 創建表然后插入數據時出現錯誤: 這是非常簡單的代碼: 我已經嘗試在插入中提供字段名稱,因為這看起來是問題所在,例如: 但是會產生同樣的錯誤。 對 delta-lake n ...
[英]Running delta lake in python and Debian as standalone spark
我想在 python 中使用三角洲湖。我在 Debian 11.6 中單獨安裝了 spark 和 anaconda。 我嘗試運行 delta lake 的代碼是: 但是上面的代碼出現了這個錯誤: 我該如何解決這個問題? ...
[英]Glue not able to recognize Delta Lake Python Library
我正在嘗試在我的 Glue 作業中使用 Delta Lake Python 庫。 但是,我的 Glue 作業無法識別它,並且出現錯誤“NameError:name 'DeltaTable' is not defined”。 根據 Glue-DeltaLake 文檔,我添加了參數 --datalake ...
[英]Manually Deleted data file from delta lake
我已經從 delta lake 中手動刪除了一個數據文件,現在下面的命令出錯了 錯誤 我試過重新啟動集群但沒有運氣也嘗試了下面的 有關修復事務日志或修復錯誤的任何幫助 ...
[英]converting a DateTime column to string in ADF
我正在嘗試在 ADF 中構建一個完全參數化的管道模板。 通過我目前所做的工作,我可以毫無問題地完成全部負載,但是當涉及到增量負載時,我的查詢似乎不起作用。 我相信這樣做的原因是我的“where”語句看起來有點像這樣: 其中“max_watermarkcolumn_loaded”是日期時間格式,“活動 ...
[英]How to reliably obtain partition columns of delta table
我需要獲取 delta 表的分區列,但是DESCRIBE delta.`my_table`的返回結果在 databricks 和本地 PyCharm 上返回不同的結果。 最小的例子: 在數據塊上顯示分區列: 但是當在 PyCharm 中本地運行時,我得到以下不同的 output: 解析這兩種類型的返 ...
[英]spark flatMapGroupsWithState random lost events
我有一份由同事組成的火花工作: 1- 從 Delta Lake 讀取 static dataFrame 。 2- 從 Delta Lake 讀取 dataFrame 的dataFrame 。 3- 加入 stream 和 static。 4-做一個flatMapGroupsWithState ...
[英]Azure Data Studio: _delta_log/*.*' cannot be listed
我正在嘗試使用 Azure Synapse Serverless SQL 池查詢我的增量表。 使用 SQL 管理員憑據登錄 Azure Data Studio。 這是我嘗試進行的對table的簡單查詢: 我收到錯誤: 如果我查詢任何其他表,例如table_copy我沒有錯誤。 我可以查詢我擁有的每 ...
[英]Performance Hit when writing into the partitioned Tables
有人可以幫忙解釋一下為什么當桌子很小的時候桌子寫起來要花太多時間嗎 ...
[英]Synapse Lake database view not available in SQL Pool?
目前探索在 Synapse 中使用 Spark notebooks 進行數據轉換而不是數據流,但 lake db 功能有點令人困惑。 我在 Synapse Workspace 中使用筆記本創建了一個湖數據庫、一個外部表(目錄?)和一個視圖。 該視圖在 Synapse UI 中可見,我可以查詢它。 ...
[英]Schema change in Delta table - How to remove a partition from the table schema without overwriting?
給定一個 Delta 表:CREATE TABLE IF NOT EXISTS mytable ( ... ) USING DELTA PARTITIONED BY part_a, part_b, part_c LOCATION '/some/path/' 該表已經有大量數據。 但是,所需的架 ...
[英]streamWriter with format(delta) is not producing a delta table
我在數據塊中使用 AutoLoader。 但是,當我將 stream 保存為增量表時,生成的表不是增量表。 為什么生成的表不是增量格式? 如果我嘗試使用spark.read(table_name)讀取表,它可以工作,但如果我嘗試使用 Redash 或內置數據塊的“數據”選項卡,它會產生錯誤,並且架構 ...
[英]great expectation with delta table
我正在嘗試在 Databricks 的增量表上運行一個很好的期望套件。 但是我想通過查詢在表的一部分上運行它。 盡管驗證運行良好,但它是在完整的表數據上運行的。 我知道我可以加載 Dataframe 並將其傳遞給批處理請求,但我想直接通過查詢加載數據。 上面的批處理請求加載忽略查詢選項的數據。 有沒 ...
[英]NoSuchMethodError: org.apache.spark.sql.catalyst.plans.logical.DeleteFromTable in Intellij
我正在嘗試使用.delete()方法從增量表中刪除一條記錄,如下所示: 當我在 Intellij 中運行我的代碼時,出現以下異常: 我讀到問題是我需要傳遞以下兩個參數: 所以我嘗試通過幾種不同的方式傳遞它們但沒有成功: 首先在構建 spark session 時: 也作為 Intellij 本身的 ...