簡體 English 中英

Spark處理json數據數百列

[英]Spark processing json data with hundreds of colums

原文 2019-11-04 16:36:05 7 1 json/ scala/ apache-spark/ multiple-columns

我正在本地模式下的 scala 中為 Spark 應用程序做 POC。 我需要處理一個 json 數據集，它有 300 列但只有更少的記錄。 我們正在使用 Spark SQL，我們的程序對於數據集中的 30-40 列運行得非常好。 我們正在使用 Spark SQL 和 Where 子句中的其他條件進行內連接和外連接。 問題是 SQL 沒有執行 300 列連接，它只是卡住了。 不知道如何分析 SQL。 有沒有解決這個問題而不必在分布式模式下運行的方法？ 在dfs上進行內部連接會緩解這個問題。 像這樣的東西，df1.join(df2, col("id1") == col("id2"), "inner")。

謝謝

1 個解決方案

您能否提供一些示例代碼/Json 的外觀/您如何知道 spark 應用程序只是“卡住”

在不查看 json 的嵌套程度的情況下，通常您可以在連接所有 300 列（並考慮空值）上創建一個 hash （如sha256 ），然后加入 Z0800FC577294C34E945B283 值。

多態JSON的SPARK處理

[英]SPARK processing of polymorphic JSON

使用EXTJS處理Json數據

[英]Processing Json data with EXTJS

在angular 7中處理JSON數據

[英]Processing JSON data in angular 7

處理 javascript 中的 JSON 數據

[英]Processing JSON data in javascript

在Spark中處理JSON-不同文件中的不同架構

[英]Processing JSON in spark - different schemas in different files

如何使用 FlatList 和 JSON 數據呈現數百張圖像的列表

[英]How to render list of hundreds of Images using FlatList and JSON data

如何使用 Python 解析數百個具有相同 JSON 數據類型的網站？

[英]How to parse hundreds of websites with same JSON data type using Python?

React-基於裝載的json數據創建數百個組件實例？

[英]React - create hundreds of component instances based on json data on mount?

帶有 JSON 數據的 SPARK 上下文

[英]SPARK CONTEXT with JSON Data

在 Python 中修改 JSON 列

[英]Modifying JSON colums in Python

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 多態JSON的SPARK處理使用EXTJS處理Json數據在angular 7中處理JSON數據處理 javascript 中的 JSON 數據在Spark中處理JSON-不同文件中的不同架構如何使用 FlatList 和 JSON 數據呈現數百張圖像的列表如何使用 Python 解析數百個具有相同 JSON 數據類型的網站？ React-基於裝載的json數據創建數百個組件實例？帶有 JSON 數據的 SPARK 上下文在 Python 中修改 JSON 列

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM