繁体   English   中英

AWS EMR 笔记本 Spark 内核无限加载小型 JSON 文件

[英]AWS EMR notebook Spark kernel infinitely loads small JSON file

我正在尝试使用 Spark 内核在 EMR 笔记本中加载 JSON 文件。 我正在使用我以前使用过的非常大的、经过验证的 EMR 集群,因此集群大小/计算能力不是问题。 下面的简单代码足以重现我的问题:

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

这是我尝试加载的 JSON 文件。 它非常小。 https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

我让它运行了1个小时。 在左下角,它写着: Spark | Busy Spark | Busy和右上角的圆圈是满的,表示内核正在工作。 但是, Spark Job Progress显示一个永远不会进行的Task Progress栏。 有什么建议吗?

问题不在于 JSON 文件。 为了解决这个问题,我只是用完全相同的步骤/配置克隆了我的有问题的 EMR 集群,将我的 EMR 笔记本附加到克隆并重新尝试使用完全相同的文件使用完全相同的代码。 它几乎立即生效。 问题出在原始集群上,尽管我不知道确切的问题是什么。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM