繁体 English 中英

AWS EMR 笔记本 Spark 内核无限加载小型 JSON 文件

[英]AWS EMR notebook Spark kernel infinitely loads small JSON file

原文 2020-02-26 20:46:48 5 1 json/ scala/ apache-spark

我正在尝试使用 Spark 内核在 EMR 笔记本中加载 JSON 文件。 我正在使用我以前使用过的非常大的、经过验证的 EMR 集群，因此集群大小/计算能力不是问题。 下面的简单代码足以重现我的问题：

val df = spark.read.json("s3a://src/main/resources/zipcodes.json")

这是我尝试加载的 JSON 文件。 它非常小。 https://raw.githubusercontent.com/spark-examples/spark-scala-examples/71d2db89ffb24db6f01eb1fa12286bfbb37c44c4/src/main/resources/zipcodes.json

我让它运行了1个小时。 在左下角，它写着： Spark | Busy Spark | Busy和右上角的圆圈是满的，表示内核正在工作。 但是， Spark Job Progress显示一个永远不会进行的Task Progress栏。 有什么建议吗？

1 个解决方案

问题不在于 JSON 文件。 为了解决这个问题，我只是用完全相同的步骤/配置克隆了我的有问题的 EMR 集群，将我的 EMR 笔记本附加到克隆并重新尝试使用完全相同的文件使用完全相同的代码。 它几乎立即生效。 问题出在原始集群上，尽管我不知道确切的问题是什么。

JSON文件会在Safari中加载，但不会在Chrome中加载

[英]JSON file loads in Safari but not in Chrome

使用带有 EMR 的 AWS Lambda 从字符串中获取 JSON object

[英]get a JSON object from a string using AWS Lambda with EMR

在 spark 中处理 json 文件

[英]Handling json file in spark

CasperJs从本地文件加载json数据

[英]CasperJs loads json data from a local file

Python JSON 加载 - 文件编码错误

[英]Python JSON loads - wrong encoding of file

是否可以通过提供json文件中的所有配置在EMR中创建集群

[英]Is it possible to create cluster in EMR by giving all the configurations from json file

Python加载JSON仅加载文件的一部分

[英]Python load JSON only loads part of a file

熊猫加载JSON文件DatetimeIndex并且不浮动

[英]Pandas loads JSON file DatetimeIndex and not float

列出切片 json.loads 文件

[英]List slicing a json.loads file

更改IPython Notebook JSON文件编码

[英]change IPython Notebook JSON file encoding

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 JSON文件会在Safari中加载，但不会在Chrome中加载使用带有 EMR 的 AWS Lambda 从字符串中获取 JSON object 在 spark 中处理 json 文件 CasperJs从本地文件加载json数据 Python JSON 加载 - 文件编码错误是否可以通过提供json文件中的所有配置在EMR中创建集群 Python加载JSON仅加载文件的一部分熊猫加载JSON文件DatetimeIndex并且不浮动列出切片 json.loads 文件更改IPython Notebook JSON文件编码

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM