簡體 English 中英

有沒有辦法在 Spark 中的單個計算中編寫兩個數據集輸出

[英]Is there a way to write two dataset outputs in single computation in Spark

原文 2020-03-06 15:51:36 2 2 java/ apache-spark/ apache-spark-sql/ apache-spark-dataset

我有一個 spark 作業，它讀取 dataFrame 中的輸入文件，進行一些計算並生成兩個輸出處理和過濾。

Dataset<Row> input = sparkSession.read().parquet(inputPath);
Dataset<Row> processed = someFunction(input);
Dataset<Row> filtered = processed.filter(someCondition);

processed.write().parquet(outputPath1);
filtered.write().parquet(outputPath2);

我觀察到在代碼執行過程中 someFunction() 被調用兩次（一次是在寫入處理時，另一次在寫入時由於 spark 中的惰性求值而被過濾）。 有沒有辦法使用對 someFunction() 的單個調用來編寫兩個輸出（通常是多個輸出）。

2 個解決方案

Spark 有能力.persist()一個數據幀用於未來的計算。 默認情況下，它會將計算出的數據幀存儲在內存中，並在必要時溢出（暫時，在驅動程序的生命周期內）到磁盤。

Dataset<Row> input = sparkSession.read().parquet(inputPath);
Dataset<Row> processed = someFunction(input).persist();
Dataset<Row> filtered = processed.filter(someCondition);

processed.write().parquet(outputPath1);
filtered.write().parquet(outputPath2);
processed.unpersist();

您可以通過緩存processed來做到這一點：

Dataset<Row> processed = someFunction(input).cache(); //cache
Dataset<Row> filtered = processed.filter(someCondition);

因為用於生成filtered的數據幀被緩存，Spark 不需要第二次調用someFunction() 。

在單個節點中的Spark中運行計算

[英]Running computation in Spark in a single node

如何使用java將數據集的兩行合並為spark中的一行

[英]How to combine the two rows of a dataset into a single row in spark using java

無法使用jdbc將spark數據集寫入數據庫

[英]Not able to write spark dataset to database using jdbc

Spark數據集-讀取CSV並寫入空輸出

[英]Spark Dataset - read CSV and write empty output

Spark：將數據集的 2 列合並為一列

[英]Spark: Merging 2 columns of a DataSet into a single column

使用Java合並Spark數據集中的兩列

[英]Merge two columns in a spark dataset using Java

如何加入兩個數據集<Row>在 Spark Java 中？

[英]How to join two Dataset<Row> in Spark java?

兩個按數據集分組的Spark Java API

[英]Two Group By Dataset Spark Java API

如何使用 Spark 數據集向 kafka 寫入 2 個不同的主題

[英]How to write 2 different topics to kafka using spark dataset

使用單列遞增值在 Java 中創建 Spark 數據集

[英]Creating a Spark Dataset in Java with a single column of increasing values

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 在單個節點中的Spark中運行計算如何使用java將數據集的兩行合並為spark中的一行無法使用jdbc將spark數據集寫入數據庫 Spark數據集-讀取CSV並寫入空輸出 Spark：將數據集的 2 列合並為一列使用Java合並Spark數據集中的兩列如何加入兩個數據集<Row>在 Spark Java 中？兩個按數據集分組的Spark Java API 如何使用 Spark 數據集向 kafka 寫入 2 個不同的主題使用單列遞增值在 Java 中創建 Spark 數據集

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM