繁体 English 中英

在 AWS EMR 上的 zip 文件中提交支持 sql 文件的 pyspark

[英]Submitting pyspark supporting sql files inside zip file on AWS EMR

原文 2019-10-23 16:09:10 1 1 python/ apache-spark/ pyspark/ pyspark-sql/ amazon-emr

我希望在 Amazon EMR 上的 pyspark 应用程序中的 S3 上引用非 python 文件（例如，SQL、config、txt）。 我尝试过 --py-files，但这只适用于我的 python 文件。 我仍然无法在 Amazon EMR 中使用来自 S3 的压缩 SQL/配置文件。 有没有人对此有任何解决方案？

1 个解决方案

您正在寻找的标志--archives 。 基本上你给它一个 zip 文件，它会将它解压缩到每个纱线容器正在执行的目录中。你应该能够使用脚本中的相对路径访问它们。

您还可以通过在末尾添加#{name}来控制 zip 解压缩到的文件夹的名称。 例如--archives s3://aaa/some.zip#files 。 Spark 在这里只是顺便提到了这一点：

https://spark.apache.org/docs/latest/running-on-yarn.html#important-notes

需要注意的一件事是，如果您使用--deploy-mode client运行，那么您的驱动程序没有运行纱线容器，因此无法访问文件。 您将改为使用--deploy-mode cluster 。

在 AWS EMR 上的 zip 文件中提交 pyspark 应用程序

[英]Submitting pyspark app inside zip file on AWS EMR

在 AWS EMR 中提交包含多个文件的 Pyspark 作业

[英]Submitting a Pyspark job with multiple files in AWS EMR

使用 zip 文件提交 pyspark 作业

[英]Submitting pyspark job with zip file

无法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件

[英]Unable to save a CSV file using PySpark Dataframe on AWS EMR

AWS EMR 上的 pyspark 提交命令

[英]pyspark submit command on AWS EMR

编辑zip文件中的文件

[英]Edit files inside zip file

使用多个python文件和一个配置文件提交pyspark作业

[英]Submitting pyspark job with multiple python files and one configuration file

AWS EMR Spark“没有名为pyspark的模块”

[英]AWS EMR Spark “No Module named pyspark”

读取 python 中的大型 zip 文件（不是里面的文件）

[英]Read large zip file (not the files inside) in python

如何处理 zip 文件中的文件

[英]how to process files inside a zip file

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 在 AWS EMR 上的 zip 文件中提交 pyspark 应用程序在 AWS EMR 中提交包含多个文件的 Pyspark 作业使用 zip 文件提交 pyspark 作业无法在 AWS EMR 上使用 PySpark Dataframe 保存 CSV 文件 AWS EMR 上的 pyspark 提交命令编辑zip文件中的文件使用多个python文件和一个配置文件提交pyspark作业 AWS EMR Spark“没有名为pyspark的模块” 读取 python 中的大型 zip 文件（不是里面的文件）如何处理 zip 文件中的文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM