
[英]How to add new partition to existing delta table?
我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...
[英]How to add new partition to existing delta table?
我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...
[英]Tracing multiple spark sessions in spark application
我有一個 java 申請。 在 java 應用程序中,我有 spark 上下文。 在 spark 上下文中,我通過執行 sparkSession.newSession() 創建了多個 spark session。 在任何給定的時間點,都會有 4-5 個會話在運行。 將有多個 sql 查詢和連接發生在 ...
[英]Spark PySpark Configuration in Visual Studio Code
我嘗試在 Visual Studio Code 中配置 Apache Spark PySpark。 我在 VScode 上安裝“Spark & Hive Tools”擴展包並添加Python > Auto Complete: Extra Paths on settings.json 文 ...
[英]Dataproc CPU usage too low even though all the cores got used
問題:我運行的 spark 作業用盡了所有節點上的所有內核,但在 Dataproc CPU 監控圖中,CPU 使用率最高達到 12% 我有一個包含 2 個節點的虛擬集群。 每個節點都有: 16 GiB memory 16芯我使用以下配置啟動 spark session 並運行以下簡單代碼: 而且 ...
[英]Yarn allocates only 1 core per container. Running spark on yarn
請確保動態分配不會在您監視 YARN UI 時殺死您的容器。 請參閱下面的答案問題:我可以使用每個執行程序的任意數量的核心啟動 SparkSession,並且 yarn 仍會報告每個容器僅分配一個核心。 我已經嘗試了所有可用的在線解決方案: 這里, 這里等解決辦法是: 配置yarn-site.xml ...
[英]Create database for fabric_lakehouse is not permitted using Apache Spark in Microsoft Fabric
我遵循了Apache Spark 中的使用增量表的說明但是當我嘗試將表格保存到 lakehouse 時,我收到了以下消息。 嘗試讀取 fact_sale 表時,在遵循“Lakehouse 教程介紹”時收到類似的錯誤消息。 我錯過了一些權限設置嗎? Create database for fabric ...
[英]How can I parse a row's column value passed to a UDF when mapping a column?
我有一個像這樣的 dataframe,為了簡單起見,我只顯示 2 列,兩列都是string ,但在現實生活中,除了string之外,它還有更多不同類型的列: SQL文本表名 select * 來自源表; 新表 select * 來自 sourceTable1; 新表1 我還有一個自定義 Fun ...
[英]Multiple formats in Date Time column in Spark
我正在使用 Spark3.0.1 我有以下數據 csv: 348702330256514,37495066290,9084849,33946,614677375609919,11-02-2018 0:00:00,GENUINE 348702330256514,37495066290,330148, ...
[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?
我有一個 Python 腳本,它運行統計分析並對輸入數據訓練深度學習模型。 數據量相當小 (~5Mb),但由於分析腳本的復雜性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本,以便我可以獲得加速。 基本上,我想將輸入數據分成許多子集並並行運行分析腳本。 Spark ...
[英]Transform list of map to dataframe
我有以下數據: 我想將其轉換為 dataframe,如下所示: 我嘗試了以下內容: 但我得到: ...
[英]Check matching data in Dataframes in spark
如果按照我的方式生成的兩個 RDD 包含相同的數據(包括行數),我該如何匹配? 我正在使用 scala 測試來運行測試並使用 scala 2.12.12 啟動版本 3 在創建我的兩個 rdd 模式的代碼下方,包括預期的一個和創建所有 3 個 rdd 數據。 assertData function ...
[英]Unrecognized Hadoop major version number
我正在嘗試在 Windows 10 上初始化一個 Apache Spark 實例以運行本地測試。 我的問題是在 Spark 實例初始化期間,我收到一條錯誤消息。 這段代碼以前對我有用過很多次,所以我猜依賴項或配置中可能發生了一些變化。 我正在使用 JDK 版本 1.8.0_192 運行,Hadoop ...
[英]How to change the schema of existing dataframe
問題陳述:我有一個 csv 文件,其中包含大約 100 多個字段。我需要對這些字段執行轉換並生成新的 80 多個字段,並僅將這些新字段以 parquet 格式寫入 s3。 parquet 預定義架構 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在將數據寫入 s3 時傳遞此預定義 ...
[英]Unable to save partitioned data in in iceberg format when using s3 and glue
出現以下錯誤- 這是我在 spark 3.3 上運行的查詢,帶有膠水目錄並保存到 s3。 冰山版本是1.1.0—— 但是當我嘗試在不分區的情況下保存數據時,它沒有任何問題 - 我該如何解決? ...
[英]How to use Apache spark to implement GraphSAGE?
我想用scala和spark來實現Graph算法GraphSAGE,那怎么辦呢? 有沒有源代碼? 我想獲取我的問題的代碼 ...
[英]Geospark IllegalArgumentException: Number of partitions must be >= 0
我試圖在幾個帶有幾何圖形的表上運行一個簡單的相交並得到這個錯誤。 我的腳本。 這是表 A。它有幾百萬行。 結果。 這是表 B。它只有 1 行。 什么節目給我。 這個錯誤是怎么回事? 我如何解決它? ...
[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'
有一個帶有列 ID 的 CSV(格式:8 位數字和末尾的“D”)。 使用.option("inferSchema", "true") 讀取 csv 時,它返回數據類型為 double 並修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...
[英]How to create a spark dataframe from one of the column in the existing dataframe
要求: 我想從一列(現有的 dataframe )中創建一個 dataframe 。 該列值是多個 json 列表。 問題: 由於 json 沒有固定的架構,我無法使用from_json function,因為它在解析列之前需要架構。 例子 預計 output: 對此有什么想法嗎? ...
[英]How to remove the 0s in the id_sum column by a sequence from 1 to n in pyspark dataframe
我有以下 pyspark dataframe df_model : id_client id_sku 1111 4444 1111 4444 2222 6666 2222 6666 3333 777 我使用此代碼生成列 id_frecuence: 我的 output 是: ...
[英]What is DataFilter in pyspark?
我在查詢執行計划中看到名為DataFilter的東西: 有一個分區過濾器:[] 推送過濾器:[IsNotNull(product_id)] 數據過濾器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,這里顯示的Data ...