cost 136 ms
如何向現有增量表添加新分區?

[英]How to add new partition to existing delta table?

我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...

在 spark 應用程序中跟蹤多個 spark 會話

[英]Tracing multiple spark sessions in spark application

我有一個 java 申請。 在 java 應用程序中,我有 spark 上下文。 在 spark 上下文中,我通過執行 sparkSession.newSession() 創建了多個 spark session。 在任何給定的時間點,都會有 4-5 個會話在運行。 將有多個 sql 查詢和連接發生在 ...

Dataproc CPU 使用率太低,即使所有內核都已使用

[英]Dataproc CPU usage too low even though all the cores got used

問題:我運行的 spark 作業用盡了所有節點上的所有內核,但在 Dataproc CPU 監控圖中,CPU 使用率最高達到 12% 我有一個包含 2 個節點的虛擬集群。 每個節點都有: 16 GiB memory 16芯我使用以下配置啟動 spark session 並運行以下簡單代碼: 而且 ...

Yarn 只為每個容器分配 1 個核心。 在紗線上奔跑的火花

[英]Yarn allocates only 1 core per container. Running spark on yarn

請確保動態分配不會在您監視 YARN UI 時殺死您的容器。 請參閱下面的答案問題:我可以使用每個執行程序的任意數量的核心啟動 SparkSession,並且 yarn 仍會報告每個容器僅分配一個核心。 我已經嘗試了所有可用的在線解決方案: 這里, 這里等解決辦法是: 配置yarn-site.xml ...

不允許在 Microsoft Fabric 中使用 Apache Spark 為 fabric_lakehouse 創建數據庫

[英]Create database for fabric_lakehouse is not permitted using Apache Spark in Microsoft Fabric

我遵循了Apache Spark 中的使用增量表的說明但是當我嘗試將表格保存到 lakehouse 時,我收到了以下消息。 嘗試讀取 fact_sale 表時,在遵循“Lakehouse 教程介紹”時收到類似的錯誤消息。 我錯過了一些權限設置嗎? Create database for fabric ...

映射列時如何解析傳遞給 UDF 的行的列值?

[英]How can I parse a row's column value passed to a UDF when mapping a column?

我有一個像這樣的 dataframe,為了簡單起見,我只顯示 2 列,兩列都是string ,但在現實生活中,除了string之外,它還有更多不同類型的列: SQL文本表名 select * 來自源表; 新表 select * 來自 sourceTable1; 新表1 我還有一個自定義 Fun ...

Spark 日期時間列中的多種格式

[英]Multiple formats in Date Time column in Spark

我正在使用 Spark3.0.1 我有以下數據 csv: 348702330256514,37495066290,9084849,33946,614677375609919,11-02-2018 0:00:00,GENUINE 348702330256514,37495066290,330148, ...

Spark 是否適合在許多節點中自動運行統計分析腳本以加快速度?

[英]Is Spark good for automatically running statistical analysis script in many nodes for a speedup?

我有一個 Python 腳本,它運行統計分析並對輸入數據訓練深度學習模型。 數據量相當小 (~5Mb),但由於分析腳本的復雜性,速度很慢。 我想知道是否可以使用 Spark 在集群的不同節點上運行我的腳本,以便我可以獲得加速。 基本上,我想將輸入數據分成許多子集並並行運行分析腳本。 Spark ...

檢查spark中Dataframes中的匹配數據

[英]Check matching data in Dataframes in spark

如果按照我的方式生成的兩個 RDD 包含相同的數據(包括行數),我該如何匹配? 我正在使用 scala 測試來運行測試並使用 scala 2.12.12 啟動版本 3 在創建我的兩個 rdd 模式的代碼下方,包括預期的一個和創建所有 3 個 rdd 數據。 assertData function ...

無法識別的 Hadoop 主要版本號

[英]Unrecognized Hadoop major version number

我正在嘗試在 Windows 10 上初始化一個 Apache Spark 實例以運行本地測試。 我的問題是在 Spark 實例初始化期間,我收到一條錯誤消息。 這段代碼以前對我有用過很多次,所以我猜依賴項或配置中可能發生了一些變化。 我正在使用 JDK 版本 1.8.0_192 運行,Hadoop ...

如何更改現有 dataframe 的模式

[英]How to change the schema of existing dataframe

問題陳述:我有一個 csv 文件,其中包含大約 100 多個字段。我需要對這些字段執行轉換並生成新的 80 多個字段,並僅將這些新字段以 parquet 格式寫入 s3。 parquet 預定義架構 = 80+ 新填充的字段 + 一些未填充的字段。 有什么方法可以在將數據寫入 s3 時傳遞此預定義 ...

Geospark IllegalArgumentException:分區數必須 >= 0

[英]Geospark IllegalArgumentException: Number of partitions must be >= 0

我試圖在幾個帶有幾何圖形的表上運行一個簡單的相交並得到這個錯誤。 我的腳本。 這是表 A。它有幾百萬行。 結果。 這是表 B。它只有 1 行。 什么節目給我。 這個錯誤是怎么回事? 我如何解決它? ...

當字符串以“d”結尾時,Spark 錯誤地將數據類型從 csv 解釋為 Double

[英]Spark incorrectly interpret data type from csv to Double when string ending with 'd'

有一個帶有列 ID 的 CSV(格式:8 位數字和末尾的“D”)。 使用.option("inferSchema", "true") 讀取 csv 時,它返回數據類型為 double 並修剪“D”。 ACADEMIC_YEAR_SEM ID 2013/1 12345678D 2013/1 ...

如何從現有 dataframe 中的列之一創建火花 dataframe

[英]How to create a spark dataframe from one of the column in the existing dataframe

要求: 我想從一列(現有的 dataframe )中創建一個 dataframe 。 該列值是多個 json 列表。 問題: 由於 json 沒有固定的架構,我無法使用from_json function,因為它在解析列之前需要架構。 例子 預計 output: 對此有什么想法嗎? ...

pyspark中的DataFilter是什么?

[英]What is DataFilter in pyspark?

我在查詢執行計划中看到名為DataFilter的東西: 有一個分區過濾器:[] 推送過濾器:[IsNotNull(product_id)] 數據過濾器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,這里顯示的Data ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM