繁体   English   中英

在 AWS EMR 上的 zip 文件中提交支持 sql 文件的 pyspark

[英]Submitting pyspark supporting sql files inside zip file on AWS EMR

我希望在 Amazon EMR 上的 pyspark 应用程序中的 S3 上引用非 python 文件(例如,SQL、config、txt)。 我尝试过 --py-files,但这只适用于我的 python 文件。 我仍然无法在 Amazon EMR 中使用来自 S3 的压缩 SQL/配置文件。 有没有人对此有任何解决方案?

您正在寻找的标志--archives 基本上你给它一个 zip 文件,它会将它解压缩到每个纱线容器正在执行的目录中。你应该能够使用脚本中的相对路径访问它们。

您还可以通过在末尾添加#{name}来控制 zip 解压缩到的文件夹的名称。 例如--archives s3://aaa/some.zip#files Spark 在这里只是顺便提到了这一点:

https://spark.apache.org/docs/latest/running-on-yarn.html#important-notes

需要注意的一件事是,如果您使用--deploy-mode client运行,那么您的驱动程序没有运行纱线容器,因此无法访问文件。 您将改为使用--deploy-mode cluster

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM