cost 304 ms
有沒有辦法在 Spark 中將每個分組數據集作為一個整體進行修改?

[英]Is there a way to modify each grouped dataset as a whole in Spark?

我有這個數據集,我想要一種更靈活的方式來分組和編輯分組數據。 例如,我想從此數據集中的每組名稱中刪除第二個 Random_Text,並連接文本的 rest: 以隨機數據集為例 我想讓數據集看起來像這樣: 我想我需要定義某種自定義的 userdefinedaggregatefunction,但我想不 ...

具有動態類型/結構列的 Spark 數據集

[英]Spark Dataset with dynamically typed/struct column

我有一個帶有已知列的火花數據集,因此可以將其“轉換”為案例 class 的數據集。 例如case class Record(id: string, occurredAt: Long, jsonBody: String) 我知道創建一個新列,它是已解析的 json 正文,它是基於給定模式動態鍵入的。 ...

直接從 Apache Spark 獲取 Splunk 搜索結果

[英]Getting Splunk search result directly from Apache Spark

關於 Splunk 和 Apache Spark 之間集成的小問題。 目前,我正在 Splunk 中進行搜索查詢。 結果相當大。 我將此結果導出為 CSV 文件,以便與下游工作的多個團隊共享。 每個下游工作最終都會加載 CSV 作為 Apache Spark 作業的一部分,將其轉換為 DataSet ...

如何獲取 PySpark 列中缺失值的數值?

[英]How to get the numeric value of missing values in a PySpark column?

我正在使用 PySpark 處理 OpenFoodFacts 數據集。 有很多列完全由缺失值組成,我想刪除這些列。 我一直在尋找方法來檢索每列缺失值的數量,但它們以表格格式顯示,而不是實際給我 null 總值的數值。 以下代碼顯示列中缺失值的數量,但以表格格式顯示: 我嘗試了以下代碼: 這個沒有按 ...

Spark Scala 數據集無法使用 agg function

[英]Spark Scala Dataset cannot use agg function

我正在嘗試獲取 scala 並使用數據集和聚合函數激發工作。 基於mapFunctionToTheSchema(返回多條記錄如):(key: Long, value: Long) 我試圖計算每個鍵的平均值。 但是,每當我嘗試這樣做時 我不確定,我做錯了什么,因為所有其他教程/stackoverfl ...

Spark 數據集使用案例 class

[英]Spark Dataset using case class

當我們必須將 Spark Dataframe 轉換為數據集時。 我們一般使用案例 class。 這意味着我們正在將一行 un-Type 轉換為 Type。 例子: 假設我有一個 RDD & 映射與案例 class 然后轉換為 dataframe。 為什么最后 dataframe 顯示 Da ...

Java Spark 中的兩個大文件作為一對多關系加入

[英]Two big files join as one to many relationship in Java Spark

我有兩個大文件 email 文件附件文件為簡單起見說 注意:廣播變量連接已經使用 email 文件和其他一些小文件執行。 這兩個文件都足夠大,廣播變量不能再次使用。 我想使用帶有eid作為連接列的JavaPairRDD連接這兩個文件,但不能使用eid制作 pairRDD,因為使用相同的eid密鑰鏈接 ...

如何迭代密集秩的數據集列以在 Scala 中創建另一列的數組?

[英]How to Iterate Dataset column of dense rank to create Array of another column in Scala?

我的輸入如下所示: 所需 output: 我在 output 數據集中的error_codes列是一個字符串序列。 我需要制作一個數組,如果不適合可以更改 Seq。 如果您有任何建議,請告訴我。 ...

如何返回數據集中列的中位數?

[英]How to return the median of a column in a dataset?

我想選擇一個數據集列的中值(中值是位於一組按升序排列的值中間的值(例如,字符串的字母順序))基本上我現在就這樣做這個: 但我想避免使用collectAsList()方法和listRows var,而是從一個 Spark 轉換中獲取值,如何在 Spark 中實現這一點? 例子: 如果目標列是 ...

Spark AQE 對數據集傾斜連接沒有幫助

[英]Spark AQE not helping with dataset skew join

我在 spark 中遇到了一個問題,即 2 個傾斜的數據集需要很長時間才能加入。 一個(或兩個)數據集中有傾斜的數據,它被用作連接列。 所以我啟用了 spark AQE,希望它可以幫助我處理傾斜的數據集連接。 但是,當我檢查 sql 查詢指標時,他們並不認為 AQE 正在幫助我解決偏差,並且一些分 ...

寫入數據集/數據框時出錯。 如何正確創建表火花?

[英]error writing a dataset/dataframe. how to create correctly a table spark?

在對原始數據集/數據框執行幾次轉換(聯合)后,我想將數據集/數據框寫入 csv。 獲得的數據集/數據框完美顯示,沒有任何問題,但是當我想在 csv 中寫入數據集/數據框時,它顯示以下錯誤 如果我不對原始數據集/數據框(聯合)進行轉換,則不會引發異常,並且數據集/數據框將完美地寫入 csv。 我 ...

使用 Spark 將帶有可選字段的嵌套 json 轉換為 Scala 案例類不起作用

[英]Using Spark converting nested json with optional fields to Scala case class not working

我有一個用例,我需要在 scala 中使用 spark 作為 Dataset[T] 讀取 json 文件或 json 字符串。 json 文件有嵌套元素,json 中的一些元素是可選的。 如果我忽略 json 中的可選字段,因為架構與案例類匹配,我可以讀取 json 文件並將它們映射到案例類。 ...

在 Apache Spark 中,Datasets 在什么情況下優於 Dataframes,反之亦然?

[英]In what situations are Datasets preferred to Dataframes and vice-versa in Apache Spark?

我一直在搜索任何鏈接、文檔或文章,以幫助我了解我們何時使用 Datasets over Dataframes,反之亦然? 我在互聯網上找到的所有標題都是關於when to use a Dataset的標題,但是當打開時,它們只是指定了數據框和數據集之間的差異。 有很多鏈接只是列出場景名稱的差異。 ...


 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM