![](/img/trans.png)
[英]How to unit test dotnet spark df without installing spark
我有一個簡單的 dotnet spark 應用程序,我試圖將其分解為測試單元。 一個樣品單元, 由於單元測試不應該有外部依賴,我的組織不允許在構建服務器中安裝 spark。 有沒有辦法在不通過 mocking session 安裝火花的情況下進行測試? ...
[英]How to unit test dotnet spark df without installing spark
我有一個簡單的 dotnet spark 應用程序,我試圖將其分解為測試單元。 一個樣品單元, 由於單元測試不應該有外部依賴,我的組織不允許在構建服務器中安裝 spark。 有沒有辦法在不通過 mocking session 安裝火花的情況下進行測試? ...
[英]In C# (.Net for Spark), how to use When() method as a condition to add new column to a DataFrame?
我在pyspark有一些經驗。當我們的團隊正在將Spark項目從python遷移到C#(.Net for Spark)時。 我遇到問題: 假設我們有一個 Spark dataframe df,其現有列為 col1。 在 pyspark 中,我可以這樣做: 問題是如何做 C# 中的等價物? 我已經嘗 ...
[英]Load fixed position file with multiple sections using .net-spark
我正在嘗試使用 .net-spark 在 spark 中加載一個包含多個部分的固定位置文件。 這是該文件的示例: 所以基本上我們有一個 header 和交易所有者,一個子標題說明下面是交易,最后是交易部分。 交易行不包含對所有者的任何引用,所以是的,這很棘手。 正如@EdElliott 所建議的,這 ...
[英]Recursive calculation on DataFrame using .NET for Spark
我想使用 .NET 為 Spark 計算RSI 。 RSI 的公式為: 第一個平均收益和平均損失是 14 個周期的平均值: 所有接下來的計算都是基於之前的平均值和當前的收益損失: 數據位於DataFrame rsiCalcPos5中,如下所示: 我已經計算了gain和loss以及第一個平均收益( ...
[英]Time Efficient gap filling data in dataframe using .NET for Spark
我想使用 .NET 來填補我的DataFrame中的空白。 當前的DataFrame (rawData)包含reportFrom和reportTo之間一分鍾間隔的數據 缺少一些間隔,我想用最后一個已知值填充它們。 在第一步(插入丟失的分鍾)之后我期望的結果是: 到目前為止,我曾經用所有分鍾創建一個新 ...
[英]How to pass array column as argument in VectorUdf in .Net Spark?
我正在嘗試在 C# Spark 中實現 Vector Udf。 我按照Spark.Net創建了 .Net Spark 環境。 Vector Udf(Apache 箭頭和 Microsoft.Data.Analysis 兩者)為我工作了 IntegerType 列。 現在,嘗試將 Integer ...
[英]Forward filling in .NET for Spark
我正在查看 window function 的火花DataFrame在 Z303CB0EF9EDB9082D61BBBE5825D#9 我有一個 DataFrame df ,其中包含年、月、日、小時、分鍾、ID、類型和值的列: 我想用基於年、月、日、小時、分鍾的前一行的值填充空行(null),如下 ...
[英]Spark Dataframe API to Select multiple columns, map them to a fixed set, and Union ALL
我有一個定義了此架構的 CSV 源文件。 ["Name", "Address", "TaxId", "SS Number", "Mobile Number", "Gender", "LastVisited"] 從這個 CSV,這些是我需要做的操作: Select 列的子集,一次一個,並且 map ...
[英]HDInsight/Spark Activity in Azure Data Factory v2 does not have option to specify --files parameter for spark-submit
我在 Azure 中創建了一個 HDInsight 集群(v4、Spark 2.4),並希望通過 Azure 數據工廠 v2 活動在該集群上運行一個 Spark.Ne 應用程序。 在 Spark Activity 中,可以指定 jar 的路徑、--class 參數和傳遞給 Spark 應用程序的參數 ...
[英]Cannot use Spark.Net UDFs and HDInsight cluster
我試圖在 prod env 中運行一個簡單的應用程序,其中包含來自https://github.com/dotnet/spark/blob/master/examples/Microsoft.Spark.CSharp.Examples/Sql/Batch/Basic.cs的代碼運行良好並將輸出發送到 ...
[英]How to perform distributed combinatorial (N choose K) in Spark .NET?
我有一個項目,其中有大量 C(100,20) 組合,每個組合集都要做少量工作。 我正在使用帶有 Visual Studio 的 Spark .NET 作為我的技術(請參閱下面的設置): https://docs.microsoft.com/en-us/dotnet/spark/tutorials/ ...
[英]UnitTest for .NET Apache Spark
我想為用 C#/.NET 編寫的 Spark 應用程序編寫單元測試。 我目前正在使用 XUnit 編寫測試,但我還沒有找到任何好的文檔來編寫單元測試來測試我的 spark 應用程序組件。 我已經編寫了一個火花單元測試,但是如果我運行“dotnet test”命令它會失敗。 如果我使用 spark- ...
[英]Is .NET for Apache Spark in Preview?
我在探索 Azure 數據工廠和 Azure Databricks 時閱讀了很多文章。 I stumbled upon a article( https://docs.microsoft.com/en-us/dotnet/spark/how-to-guides/databricks-deploy ...
[英]How to run .Net spark jobs on Databricks from Azure Data Factory?
在 Azure 數據工廠中,您有一個 Databricks Acvitiy。 此活動支持運行 python、jar 和筆記本。 並且這些筆記本可能寫在 scala、python、java 和 ZE1E1D3D40573127E9ZEE048 中,但不是 c#/C#/AF127E9ZEE048。 是 ...
[英]CreateDataFrame with F#
我正在嘗試使用 F# 創建一個簡單的 Spark DataFrame,因為它在Spark.Net 測試中使用 最終,此代碼失敗(與使用 .NET 集合的代碼完全相同) ...
[英]Is there a way to change the export filename using .NET SPARK?
我正在嘗試使用 .NET SPARK 將 Dataframe 導出到 CSV 文件,但我的導出文件的默認名稱為“part-00000-{GUID}” :'ABC_20200504.csv'。 這是我的代碼: 我試圖操縱 pathSource,強制導出到“test.csv”,但是使用這種方法,我總是 ...
[英]How to correctly instantiate a spark session with dotnet spark?
我一直在關注 dotnet spark 上的文檔以開始使用 Windows 上的庫。 可以找到本指南: 在 GitHub 上: https : //github.com/dotnet/spark/blob/master/docs/getting-started/windows-instructio ...
[英]Create dataframe from C# List - Spark for .NET
我目前是 Spark 的 .NET 新手,需要將 C# 列表附加到增量表。 我假設我首先需要創建一個 Spark DataFrame 來做到這一點。 在示例代碼中,我將如何將“名稱”附加到數據框“df”? 現在似乎已棄用( https://github.com/Microsoft/Mobius ) ...
[英]Method not implemented exception on Take method in Microsoft.Spark
我正在嘗試使用新的 Microsoft.Spark 庫設置 spark。 方法 DataFrame.PrintSchema 工作正常,但是方法 DataFrame.Take() 給出了 System.NotImplementedException。 其他方法的分配也給出了這個例外。 我查看了源代碼 ...