標簽[apache-spark-dataset] - 堆棧內存溢出

[英]Is there a way to modify each grouped dataset as a whole in Spark?

我有這個數據集，我想要一種更靈活的方式來分組和編輯分組數據。例如，我想從此數據集中的每組名稱中刪除第二個 Random_Text，並連接文本的 rest：以隨機數據集為例我想讓數據集看起來像這樣：我想我需要定義某種自定義的 userdefinedaggregatefunction，但我想不 ...

具有動態類型/結構列的 Spark 數據集

[英]Spark Dataset with dynamically typed/struct column

我有一個帶有已知列的火花數據集，因此可以將其“轉換”為案例 class 的數據集。例如case class Record(id: string, occurredAt: Long, jsonBody: String) 我知道創建一個新列，它是已解析的 json 正文，它是基於給定模式動態鍵入的。 ...

如果僅重復使用兩次，是否需要緩存數據集？

[英]Do I need to cache a Dataset if it is reused only twice?

我正在使用 Apache Spark，我有以下代碼：Dataset<Row> tradesDataset = sparkSession .sql("select * from a_table") .cache(); // <-- do I nee ...

直接從 Apache Spark 獲取 Splunk 搜索結果

[英]Getting Splunk search result directly from Apache Spark

關於 Splunk 和 Apache Spark 之間集成的小問題。目前，我正在 Splunk 中進行搜索查詢。結果相當大。我將此結果導出為 CSV 文件，以便與下游工作的多個團隊共享。每個下游工作最終都會加載 CSV 作為 Apache Spark 作業的一部分，將其轉換為 DataSet ...

如何獲取 PySpark 列中缺失值的數值？

[英]How to get the numeric value of missing values in a PySpark column?

我正在使用 PySpark 處理 OpenFoodFacts 數據集。有很多列完全由缺失值組成，我想刪除這些列。我一直在尋找方法來檢索每列缺失值的數量，但它們以表格格式顯示，而不是實際給我 null 總值的數值。以下代碼顯示列中缺失值的數量，但以表格格式顯示：我嘗試了以下代碼：這個沒有按 ...

洗牌分區配置對轉換的影響有多大

[英]How wide transformations are influenced by shuffle partition config

基於洗牌分區配置，廣泛的轉換實際上是如何工作的？如果我有以下程序：這是否意味着排序將 output 5 個新分區（按配置），然后 spark 從這 5 個分區中獲取 200 條記錄？ ...

Spark Scala 數據集無法使用 agg function

[英]Spark Scala Dataset cannot use agg function

我正在嘗試獲取 scala 並使用數據集和聚合函數激發工作。基於mapFunctionToTheSchema（返回多條記錄如）：（key: Long, value: Long）我試圖計算每個鍵的平均值。但是，每當我嘗試這樣做時我不確定，我做錯了什么，因為所有其他教程/stackoverfl ...

Spark 數據集使用案例 class

[英]Spark Dataset using case class

當我們必須將 Spark Dataframe 轉換為數據集時。我們一般使用案例 class。這意味着我們正在將一行 un-Type 轉換為 Type。例子：假設我有一個 RDD & 映射與案例 class 然后轉換為 dataframe。為什么最后 dataframe 顯示 Da ...

在 Java spark 中，如何基於索引 select 列

[英]In Java spark, how to select columns based on index

我如何才能在 java spark 中的 csv 文件（文件中沒有列名）中僅 select 第 2 列和第 5 列，代碼如下： ...

Java Spark 中的兩個大文件作為一對多關系加入

[英]Two big files join as one to many relationship in Java Spark

我有兩個大文件 email 文件附件文件為簡單起見說注意：廣播變量連接已經使用 email 文件和其他一些小文件執行。這兩個文件都足夠大，廣播變量不能再次使用。我想使用帶有eid作為連接列的JavaPairRDD連接這兩個文件，但不能使用eid制作 pairRDD，因為使用相同的eid密鑰鏈接 ...

如何迭代密集秩的數據集列以在 Scala 中創建另一列的數組？

[英]How to Iterate Dataset column of dense rank to create Array of another column in Scala?

我的輸入如下所示：所需 output：我在 output 數據集中的error_codes列是一個字符串序列。我需要制作一個數組，如果不適合可以更改 Seq。如果您有任何建議，請告訴我。 ...

過濾火花數據集

[英]Filtering a spark dataset

在火花會話中 val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate( ...

在數據集中查找結構字段的數據類型

[英]Find the data type of a structfield in dataset

我有一個數據集，它具有以下架構：我想訪問每個 StructField 的數據類型。例如if the data type of col_name_1 is NullType print null. 如何構建這個 if 循環？ ...

如何返回數據集中列的中位數？

[英]How to return the median of a column in a dataset?

我想選擇一個數據集列的中值（中值是位於一組按升序排列的值中間的值（例如，字符串的字母順序））基本上我現在就這樣做這個：但我想避免使用collectAsList()方法和listRows var，而是從一個 Spark 轉換中獲取值，如何在 Spark 中實現這一點？例子：如果目標列是 ...

Spark AQE 對數據集傾斜連接沒有幫助

[英]Spark AQE not helping with dataset skew join

我在 spark 中遇到了一個問題，即 2 個傾斜的數據集需要很長時間才能加入。一個（或兩個）數據集中有傾斜的數據，它被用作連接列。所以我啟用了 spark AQE，希望它可以幫助我處理傾斜的數據集連接。但是，當我檢查 sql 查詢指標時，他們並不認為 AQE 正在幫助我解決偏差，並且一些分 ...

寫入數據集/數據框時出錯。如何正確創建表火花？

[英]error writing a dataset/dataframe. how to create correctly a table spark?

在對原始數據集/數據框執行幾次轉換（聯合）后，我想將數據集/數據框寫入 csv。獲得的數據集/數據框完美顯示，沒有任何問題，但是當我想在 csv 中寫入數據集/數據框時，它顯示以下錯誤如果我不對原始數據集/數據框（聯合）進行轉換，則不會引發異常，並且數據集/數據框將完美地寫入 csv。我 ...

在不使用 UDF 的情況下添加具有映射邏輯的多列

[英]Add multiple columns with map logic without using UDF

我想使用 addressParser 函數從給定的表結構中解析地址列以獲取號碼、街道、城市和國家。樣本輸入：地址標識地址添加001 "384, East Avenue Street, 紐約, 美國 ...

使用 Spark 將帶有可選字段的嵌套 json 轉換為 Scala 案例類不起作用

[英]Using Spark converting nested json with optional fields to Scala case class not working

我有一個用例，我需要在 scala 中使用 spark 作為 Dataset[T] 讀取 json 文件或 json 字符串。 json 文件有嵌套元素，json 中的一些元素是可選的。如果我忽略 json 中的可選字段，因為架構與案例類匹配，我可以讀取 json 文件並將它們映射到案例類。 ...

如何檢查spark中的列數據類型

[英]How to check column data type in spark

我有一種插補方法來進行均值、中值和眾數運算，但如果列數據類型不是 Double/Float，這將失敗。我的java代碼：有什么辦法可以處理這個我正在使用 java ...

在 Apache Spark 中，Datasets 在什么情況下優於 Dataframes，反之亦然？

[英]In what situations are Datasets preferred to Dataframes and vice-versa in Apache Spark?

我一直在搜索任何鏈接、文檔或文章，以幫助我了解我們何時使用 Datasets over Dataframes，反之亦然？我在互聯網上找到的所有標題都是關於when to use a Dataset的標題，但是當打開時，它們只是指定了數據框和數據集之間的差異。有很多鏈接只是列出場景名稱的差異。 ...