簡體   English   中英

Spark處理json數據數百列

[英]Spark processing json data with hundreds of colums

我正在本地模式下的 scala 中為 Spark 應用程序做 POC。 我需要處理一個 json 數據集,它有 300 列但只有更少的記錄。 我們正在使用 Spark SQL,我們的程序對於數據集中的 30-40 列運行得非常好。 我們正在使用 Spark SQL 和 Where 子句中的其他條件進行內連接和外連接。 問題是 SQL 沒有執行 300 列連接,它只是卡住了。 不知道如何分析 SQL。 有沒有解決這個問題而不必在分布式模式下運行的方法? 在dfs上進行內部連接會緩解這個問題。 像這樣的東西,df1.join(df2, col("id1") == col("id2"), "inner")。

謝謝

您能否提供一些示例代碼/Json 的外觀/您如何知道 spark 應用程序只是“卡住”

在不查看 json 的嵌套程度的情況下,通常您可以在連接所有 300 列(並考慮空值)上創建一個 hash (如sha256 ),然后加入 Z0800FC577294C34E945B283 值。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM