簡體 English 中英

AWS EMR 筆記本 Spark 內核無限加載小型 JSON 文件

[英]AWS EMR notebook Spark kernel infinitely loads small JSON file

原文 2020-02-26 20:46:48 2 1 json/ scala/ apache-spark

我正在嘗試使用 Spark 內核在 EMR 筆記本中加載 JSON 文件。 我正在使用我以前使用過的非常大的、經過驗證的 EMR 集群，因此集群大小/計算能力不是問題。 下面的簡單代碼足以重現我的問題：

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

這是我嘗試加載的 JSON 文件。 它非常小。 https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

我讓它運行了1個小時。 在左下角，它寫着： Spark | Busy Spark | Busy和右上角的圓圈是滿的，表示內核正在工作。 但是， Spark Job Progress顯示一個永遠不會進行的Task Progress欄。 有什么建議嗎？

1 個解決方案

問題不在於 JSON 文件。 為了解決這個問題，我只是用完全相同的步驟/配置克隆了我的有問題的 EMR 集群，將我的 EMR 筆記本附加到克隆並重新嘗試使用完全相同的文件使用完全相同的代碼。 它幾乎立即生效。 問題出在原始集群上，盡管我不知道確切的問題是什么。

JSON文件會在Safari中加載，但不會在Chrome中加載

[英]JSON file loads in Safari but not in Chrome

使用帶有 EMR 的 AWS Lambda 從字符串中獲取 JSON object

[英]get a JSON object from a string using AWS Lambda with EMR

在 spark 中處理 json 文件

[英]Handling json file in spark

CasperJs從本地文件加載json數據

[英]CasperJs loads json data from a local file

Python JSON 加載 - 文件編碼錯誤

[英]Python JSON loads - wrong encoding of file

是否可以通過提供json文件中的所有配置在EMR中創建集群

[英]Is it possible to create cluster in EMR by giving all the configurations from json file

Python加載JSON僅加載文件的一部分

[英]Python load JSON only loads part of a file

熊貓加載JSON文件DatetimeIndex並且不浮動

[英]Pandas loads JSON file DatetimeIndex and not float

列出切片 json.loads 文件

[英]List slicing a json.loads file

更改IPython Notebook JSON文件編碼

[英]change IPython Notebook JSON file encoding

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 JSON文件會在Safari中加載，但不會在Chrome中加載使用帶有 EMR 的 AWS Lambda 從字符串中獲取 JSON object 在 spark 中處理 json 文件 CasperJs從本地文件加載json數據 Python JSON 加載 - 文件編碼錯誤是否可以通過提供json文件中的所有配置在EMR中創建集群 Python加載JSON僅加載文件的一部分熊貓加載JSON文件DatetimeIndex並且不浮動列出切片 json.loads 文件更改IPython Notebook JSON文件編碼

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM