cost 189 ms
如何在不安裝 spark 的情況下對 dotnet spark df 進行單元測試

[英]How to unit test dotnet spark df without installing spark

我有一個簡單的 dotnet spark 應用程序,我試圖將其分解為測試單元。 一個樣品單元, 由於單元測試不應該有外部依賴,我的組織不允許在構建服務器中安裝 spark。 有沒有辦法在不通過 mocking session 安裝火花的情況下進行測試? ...

在 C# (.Net for Spark) 中,如何使用 When() 方法作為向 DataFrame 添加新列的條件?

[英]In C# (.Net for Spark), how to use When() method as a condition to add new column to a DataFrame?

我在pyspark有一些經驗。當我們的團隊正在將Spark項目從python遷移到C#(.Net for Spark)時。 我遇到問題: 假設我們有一個 Spark dataframe df,其現有列為 col1。 在 pyspark 中,我可以這樣做: 問題是如何做 C# 中的等價物? 我已經嘗 ...

2022-04-07 08:02:35   1   242    .net-spark  
使用 .net-spark 加載包含多個部分的固定 position 文件

[英]Load fixed position file with multiple sections using .net-spark

我正在嘗試使用 .net-spark 在 spark 中加載一個包含多個部分的固定位置文件。 這是該文件的示例: 所以基本上我們有一個 header 和交易所有者,一個子標題說明下面是交易,最后是交易部分。 交易行不包含對所有者的任何引用,所以是的,這很棘手。 正如@EdElliott 所建議的,這 ...

使用 Spark 的 .NET 對 DataFrame 進行遞歸計算

[英]Recursive calculation on DataFrame using .NET for Spark

我想使用 .NET 為 Spark 計算RSI 。 RSI 的公式為: 第一個平均收益和平均損失是 14 個周期的平均值: 所有接下來的計算都是基於之前的平均值和當前的收益損失: 數據位於DataFrame rsiCalcPos5中,如下所示: 我已經計算了gain和loss以及第一個平均收益( ...

dataframe 中使用 .NET 的 Spark 時效間隙填充數據

[英]Time Efficient gap filling data in dataframe using .NET for Spark

我想使用 .NET 來填補我的DataFrame中的空白。 當前的DataFrame (rawData)包含reportFrom和reportTo之間一分鍾間隔的數據 缺少一些間隔,我想用最后一個已知值填充它們。 在第一步(插入丟失的分鍾)之后我期望的結果是: 到目前為止,我曾經用所有分鍾創建一個新 ...

正向填充.NET for Spark

[英]Forward filling in .NET for Spark

我正在查看 window function 的火花DataFrame在 Z303CB0EF9EDB9082D61BBBE5825D#9 我有一個 DataFrame df ,其中包含年、月、日、小時、分鍾、ID、類型和值的列: 我想用基於年、月、日、小時、分鍾的前一行的值填充空行(null),如下 ...

Azure 數據工廠 v2 中的 HDInsight/Spark 活動沒有為 spark-submit 指定 --files 參數的選項

[英]HDInsight/Spark Activity in Azure Data Factory v2 does not have option to specify --files parameter for spark-submit

我在 Azure 中創建了一個 HDInsight 集群(v4、Spark 2.4),並希望通過 Azure 數據工廠 v2 活動在該集群上運行一個 Spark.Ne 應用程序。 在 Spark Activity 中,可以指定 jar 的路徑、--class 參數和傳遞給 Spark 應用程序的參數 ...

如何在 Spark .NET 中執行分布式組合(N 選擇 K)?

[英]How to perform distributed combinatorial (N choose K) in Spark .NET?

我有一個項目,其中有大量 C(100,20) 組合,每個組合集都要做少量工作。 我正在使用帶有 Visual Studio 的 Spark .NET 作為我的技術(請參閱下面的設置): https://docs.microsoft.com/en-us/dotnet/spark/tutorials/ ...

單元測試 .NET Apache Spark

[英]UnitTest for .NET Apache Spark

我想為用 C#/.NET 編寫的 Spark 應用程序編寫單元測試。 我目前正在使用 XUnit 編寫測試,但我還沒有找到任何好的文檔來編寫單元測試來測試我的 spark 應用程序組件。 我已經編寫了一個火花單元測試,但是如果我運行“dotnet test”命令它會失敗。 如果我使用 spark- ...

使用 F# 創建數據幀

[英]CreateDataFrame with F#

我正在嘗試使用 F# 創建一個簡單的 Spark DataFrame,因為它在Spark.Net 測試中使用 最終,此代碼失敗(與使用 .NET 集合的代碼完全相同) ...

有沒有辦法使用 .NET SPARK 更改導出文件名?

[英]Is there a way to change the export filename using .NET SPARK?

我正在嘗試使用 .NET SPARK 將 Dataframe 導出到 CSV 文件,但我的導出文件的默認名稱為“part-00000-{GUID}” :'ABC_20200504.csv'。 這是我的代碼: 我試圖操縱 pathSource,強制導出到“test.csv”,但是使用這種方法,我總是 ...

從 C# 列表創建數據幀 - Spark for .NET

[英]Create dataframe from C# List - Spark for .NET

我目前是 Spark 的 .NET 新手,需要將 C# 列表附加到增量表。 我假設我首先需要創建一個 Spark DataFrame 來做到這一點。 在示例代碼中,我將如何將“名稱”附加到數據框“df”? 現在似乎已棄用( https://github.com/Microsoft/Mobius ) ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM