[英]Is there a way to modify each grouped dataset as a whole in Spark?
我有這個數據集,我想要一種更靈活的方式來分組和編輯分組數據。 例如,我想從此數據集中的每組名稱中刪除第二個 Random_Text,並連接文本的 rest: 以隨機數據集為例 我想讓數據集看起來像這樣: 我想我需要定義某種自定義的 userdefinedaggregatefunction,但我想不 ...
[英]Is there a way to modify each grouped dataset as a whole in Spark?
我有這個數據集,我想要一種更靈活的方式來分組和編輯分組數據。 例如,我想從此數據集中的每組名稱中刪除第二個 Random_Text,並連接文本的 rest: 以隨機數據集為例 我想讓數據集看起來像這樣: 我想我需要定義某種自定義的 userdefinedaggregatefunction,但我想不 ...
[英]Spark Dataset with dynamically typed/struct column
我有一個帶有已知列的火花數據集,因此可以將其“轉換”為案例 class 的數據集。 例如case class Record(id: string, occurredAt: Long, jsonBody: String) 我知道創建一個新列,它是已解析的 json 正文,它是基於給定模式動態鍵入的。 ...
[英]Do I need to cache a Dataset if it is reused only twice?
我正在使用 Apache Spark,我有以下代碼:Dataset<Row> tradesDataset = sparkSession .sql("select * from a_table") .cache(); // <-- do I nee ...
[英]Getting Splunk search result directly from Apache Spark
關於 Splunk 和 Apache Spark 之間集成的小問題。 目前,我正在 Splunk 中進行搜索查詢。 結果相當大。 我將此結果導出為 CSV 文件,以便與下游工作的多個團隊共享。 每個下游工作最終都會加載 CSV 作為 Apache Spark 作業的一部分,將其轉換為 DataSet ...
[英]How to get the numeric value of missing values in a PySpark column?
我正在使用 PySpark 處理 OpenFoodFacts 數據集。 有很多列完全由缺失值組成,我想刪除這些列。 我一直在尋找方法來檢索每列缺失值的數量,但它們以表格格式顯示,而不是實際給我 null 總值的數值。 以下代碼顯示列中缺失值的數量,但以表格格式顯示: 我嘗試了以下代碼: 這個沒有按 ...
[英]How wide transformations are influenced by shuffle partition config
基於洗牌分區配置,廣泛的轉換實際上是如何工作的? 如果我有以下程序: 這是否意味着排序將 output 5 個新分區(按配置),然后 spark 從這 5 個分區中獲取 200 條記錄? ...
[英]Spark Scala Dataset cannot use agg function
我正在嘗試獲取 scala 並使用數據集和聚合函數激發工作。 基於mapFunctionToTheSchema(返回多條記錄如):(key: Long, value: Long) 我試圖計算每個鍵的平均值。 但是,每當我嘗試這樣做時 我不確定,我做錯了什么,因為所有其他教程/stackoverfl ...
[英]Spark Dataset using case class
當我們必須將 Spark Dataframe 轉換為數據集時。 我們一般使用案例 class。 這意味着我們正在將一行 un-Type 轉換為 Type。 例子: 假設我有一個 RDD & 映射與案例 class 然后轉換為 dataframe。 為什么最后 dataframe 顯示 Da ...
[英]In Java spark, how to select columns based on index
我如何才能在 java spark 中的 csv 文件(文件中沒有列名)中僅 select 第 2 列和第 5 列,代碼如下: ...
[英]Two big files join as one to many relationship in Java Spark
我有兩個大文件 email 文件附件文件為簡單起見說 注意:廣播變量連接已經使用 email 文件和其他一些小文件執行。 這兩個文件都足夠大,廣播變量不能再次使用。 我想使用帶有eid作為連接列的JavaPairRDD連接這兩個文件,但不能使用eid制作 pairRDD,因為使用相同的eid密鑰鏈接 ...
[英]How to Iterate Dataset column of dense rank to create Array of another column in Scala?
我的輸入如下所示: 所需 output: 我在 output 數據集中的error_codes列是一個字符串序列。 我需要制作一個數組,如果不適合可以更改 Seq。 如果您有任何建議,請告訴我。 ...
[英]Filtering a spark dataset
在火花會話中 val spark = SparkSession .builder() .appName("Spark SQL basic example") .config("spark.some.config.option", "some-value") .getOrCreate( ...
[英]Find the data type of a structfield in dataset
我有一個數據集,它具有以下架構: 我想訪問每個 StructField 的數據類型。 例如if the data type of col_name_1 is NullType print null. 如何構建這個 if 循環? ...
[英]How to return the median of a column in a dataset?
我想選擇一個數據集列的中值(中值是位於一組按升序排列的值中間的值(例如,字符串的字母順序))基本上我現在就這樣做這個: 但我想避免使用collectAsList()方法和listRows var,而是從一個 Spark 轉換中獲取值,如何在 Spark 中實現這一點? 例子: 如果目標列是 ...
[英]Spark AQE not helping with dataset skew join
我在 spark 中遇到了一個問題,即 2 個傾斜的數據集需要很長時間才能加入。 一個(或兩個)數據集中有傾斜的數據,它被用作連接列。 所以我啟用了 spark AQE,希望它可以幫助我處理傾斜的數據集連接。 但是,當我檢查 sql 查詢指標時,他們並不認為 AQE 正在幫助我解決偏差,並且一些分 ...
[英]error writing a dataset/dataframe. how to create correctly a table spark?
在對原始數據集/數據框執行幾次轉換(聯合)后,我想將數據集/數據框寫入 csv。 獲得的數據集/數據框完美顯示,沒有任何問題,但是當我想在 csv 中寫入數據集/數據框時,它顯示以下錯誤 如果我不對原始數據集/數據框(聯合)進行轉換,則不會引發異常,並且數據集/數據框將完美地寫入 csv。 我 ...
[英]Add multiple columns with map logic without using UDF
我想使用 addressParser 函數從給定的表結構中解析地址列以獲取號碼、街道、城市和國家。 樣本輸入: 地址標識 地址 添加001 "384, East Avenue Street, 紐約, 美國 ...
[英]Using Spark converting nested json with optional fields to Scala case class not working
我有一個用例,我需要在 scala 中使用 spark 作為 Dataset[T] 讀取 json 文件或 json 字符串。 json 文件有嵌套元素,json 中的一些元素是可選的。 如果我忽略 json 中的可選字段,因為架構與案例類匹配,我可以讀取 json 文件並將它們映射到案例類。 ...
[英]How to check column data type in spark
我有一種插補方法來進行均值、中值和眾數運算,但如果列數據類型不是 Double/Float,這將失敗。 我的java代碼: 有什么辦法可以處理這個我正在使用 java ...
[英]In what situations are Datasets preferred to Dataframes and vice-versa in Apache Spark?
我一直在搜索任何鏈接、文檔或文章,以幫助我了解我們何時使用 Datasets over Dataframes,反之亦然? 我在互聯網上找到的所有標題都是關於when to use a Dataset的標題,但是當打開時,它們只是指定了數據框和數據集之間的差異。 有很多鏈接只是列出場景名稱的差異。 ...