簡體   English   中英

AWS EMR 筆記本 Spark 內核無限加載小型 JSON 文件

[英]AWS EMR notebook Spark kernel infinitely loads small JSON file

我正在嘗試使用 Spark 內核在 EMR 筆記本中加載 JSON 文件。 我正在使用我以前使用過的非常大的、經過驗證的 EMR 集群,因此集群大小/計算能力不是問題。 下面的簡單代碼足以重現我的問題:

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

這是我嘗試加載的 JSON 文件。 它非常小。 https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

我讓它運行了1個小時。 在左下角,它寫着: Spark | Busy Spark | Busy和右上角的圓圈是滿的,表示內核正在工作。 但是, Spark Job Progress顯示一個永遠不會進行的Task Progress欄。 有什么建議嗎?

問題不在於 JSON 文件。 為了解決這個問題,我只是用完全相同的步驟/配置克隆了我的有問題的 EMR 集群,將我的 EMR 筆記本附加到克隆並重新嘗試使用完全相同的文件使用完全相同的代碼。 它幾乎立即生效。 問題出在原始集群上,盡管我不知道確切的問題是什么。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM