cost 260 ms
如何向現有增量表添加新分區?

[英]How to add new partition to existing delta table?

我正在嘗試修改現有增量表的分區。 我知道如何使用數據幀 API 來做到這一點。我需要使用 SPRAK SQL 來實現類似的事情。有人幫我嗎? 當我嘗試在命令下運行時 我遇到錯誤 是否可以在 SPARK SQL 中做同樣的事情? ...

在 spark 應用程序中跟蹤多個 spark 會話

[英]Tracing multiple spark sessions in spark application

我有一個 java 申請。 在 java 應用程序中,我有 spark 上下文。 在 spark 上下文中,我通過執行 sparkSession.newSession() 創建了多個 spark session。 在任何給定的時間點,都會有 4-5 個會話在運行。 將有多個 sql 查詢和連接發生在 ...

在同一列中用另一組基於其他列組的組覆蓋一組值

[英]Overwriting group of values with in same column another set of group based on other column group

輸入: 下面的查詢在 sql 服務器中工作,由於相關的子查詢在 spark sql 中不起作用。是否有 spark sql 或 pyspark dataframe 的替代方案。 SELECT Name,groupid,IsProcessed,ngid, CASE WHEN WHEN IS NULL ...

如何從現有 dataframe 中的列之一創建火花 dataframe

[英]How to create a spark dataframe from one of the column in the existing dataframe

要求: 我想從一列(現有的 dataframe )中創建一個 dataframe 。 該列值是多個 json 列表。 問題: 由於 json 沒有固定的架構,我無法使用from_json function,因為它在解析列之前需要架構。 例子 預計 output: 對此有什么想法嗎? ...

讀取多個csv文件,PySpark中每個csv文件的列數不同

[英]Read multiple csv files with different number of columns for each csv file in PySpark

賞金將在 6 天后到期。 此問題的答案有資格獲得+100聲望賞金。 ForestGump正在尋找此問題的最新答案。 我想使用 PySpark 讀取具有不同列數的多個 csv 文件。 f1 文件有 50 列,f2 還有 10 列,總共 60 列,f3 還有 30 列,f3 文件總共有 80 列, ...

pyspark中的DataFilter是什么?

[英]What is DataFilter in pyspark?

我在查詢執行計划中看到名為DataFilter的東西: 有一個分區過濾器:[] 推送過濾器:[IsNotNull(product_id)] 數據過濾器:[isnotnull(product_id#12)] 我了解PartitionFilter和PushedFilter 。 但是,這里顯示的Data ...

Pyspark - 即使在謂詞被下推之后,與掃描后應用的謂詞相同的過濾器

[英]Pyspark - Same filter as the predicate applied after scan even after the predicate is getting pushed down

問題:連接兩個數據集時,為什么過濾器 isnotnull 在連接鍵列上應用了兩次? 在物理計划中,它曾經作為 PushedFilter 應用,然后在它之后顯式應用。 為什么會這樣? 代碼: ...

使用 spark sql 寫入增量表

[英]Writing to delta table using spark sql

在 python 中,我試圖在 Databricks 的數據庫DB中創建並寫入表TBL 。 但我得到一個例外: A schema mismatch detected writing to the Delta table 。 我的代碼如下,這里df是一個pandas dataframe。 代碼在最后一 ...

RuntimeError:SparkContext 應該只在驅動程序上創建和訪問

[英]RuntimeError: SparkContext should only be created and accessed on the driver

我正在嘗試執行以下代碼,因為我需要查找表並從中創建一個新列。 所以,我正在嘗試使用 udf 連接 go,因為加入沒有成功。 在那里,我收到RuntimeError: SparkContext should only be created and accessed on the driver. 錯誤。 ...

Spark CVS 加載 - 自定義架構 - 自定義 object

[英]Spark CVS load - custom schema - custom object

我的 CVS 是這樣的—— 我正在日志中打印我的模式 -(你看,列現在被翻轉或排序 - 啊!) 我遇到錯誤 這就是我的Tranaction的樣子。 問題 - 為什么 Spark 無法匹配我的模式? 順序亂了在我的 CSV 中,我傳遞了 transactionid、accountId,但 spark ...

如何將復雜的嵌套 JSON 結構翻譯成 Spark 中的多列 DataFrame

[英]How to translate a complex nested JSON structure into multiple columns in a Spark DataFrame

我正在學習 Scala,並試圖從一個大的嵌套 json 文件中過濾 select 幾列,以生成 DataFrame。這是 json 的要點: 因此,數據看起來像這樣,用 spark 讀入。 而不是這個,我想要一個 DataFrame 的列:名稱 | 聚會 | 黨團會議。 我搞砸了 explode( ...

Spark window 聚合 function 不能直觀地處理記錄排序

[英]Spark window aggregate function not working intuitively with records ordering

我有以下在 Spark 3.3 上運行的示例 output 符合預期,我得到每個 window 的正確最小值/最大值 當我將 orderBy 添加到 window 時,output 是不同的: 如您所見,使用 desc 排序 max_value 沒問題,但 min_value 正在從一條記錄更改到 ...

計算從列表中獲取特定列的行的平均值並將平均值列添加到 pyspark dataframe

[英]Calculating mean of rows taking specific columns from a list and adding the mean column to pyspark dataframe

我有一個 pyspark dataframe,列為“A”、“B”和“C”、“D”。 我想添加一個具有行平均值的列。 但條件是需要計算平均值的列名(在行級別)應該取自列表 l=["A","C"]。 該列表的原因是列名稱和編號可能會有所不同,因此我需要它是靈活的。 例如。 對於 cols l=["A" ...

使用 pandas/pyspark 計算球隊參加的比賽總數,當它同時出現在 HomeTeam 和 Away Team col 中時

[英]Calculate total number of matches played by team ,When it is present in both HomeTeam and Away Team col using pandas/pyspark

項目清單使用 pandas/pyspark 計算球隊參加的比賽總數,當它同時出現在 HomeTeam 和 Away Team col 中時我雖然使用加入。 首先,我將 HomeTeam 分組並獲得 HomeTeam 和客隊比賽次數的結果。 然后根據團隊名稱加入他們。 有沒有更好的方法我附上了data ...

使用 PySpark 根據年齡生成子樣本

[英]Generate subsample based on age using PySpark

我想根據年齡收集樣本,條件是失敗狀態。 我對 3 天前的序列號感興趣。 但是,我不需要少於 3 天的健康序列號,但我想包括所有少於 3 天或剛好 3 天的失敗序列號。 例如,C 在 1 月 3 日失敗,因此我需要在我的新樣本中包括序列號 C 的 1 月 1 日和 2 日。 系列 D 在 1 月 4 ...

我如何在 Pyspark DF 中使用 .startswith 來替換單元格的整個值,而不僅僅是匹配的字符串?

[英]How can I use .startswith in a Pyspark DF to replace the ENTIRE value of the cell instead of just the matching string?

我正在嘗試為此做一些事情: 名稱地位賬單 2023 年 1 月 1 日取消吉姆積極的金維修桿 1999 年 5 月 1 日取消鈦積極的梅格無故取消 名稱地位賬單排除吉姆積極的金維修桿排除鈦積極的梅格排除我不確定我寫的是否正確。 但最終結果是我正在努力的方向。 我知道regexp_replace() ...

聯合循環 Pyspark

[英]Union in loop Pyspark

我有兩個數據框 我只想將特定語言行從 sdf2 添加到第一個 dataframe。我用一個循環來完成: 但它只附加 langs 中最后一種語言的行 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM