简体   繁体   English

Google Dataproc 的自定义容器映像 pyspark 批处理作业

[英]Custom Container Image for Google Dataproc pyspark Batch Job

I am exploring newly introduced the google dataproc serverless .我正在探索新推出的 google dataproc serverless While sumitting job, I want to use custom images (wanted use --container-image argument) such that all my python libraries and related files already present in the server such that job can execute faster.在提交工作时,我想使用自定义图像(希望使用--container-image参数),这样我的所有 python 库和相关文件已经存在于服务器中,这样工作就可以更快地执行。

I have googled and I found only this Dataproc custom images which talks about custom dataproc image.我已经用谷歌搜索了,我只找到了这个Dataproc 自定义图像,它讨论了自定义 dataproc 图像。 I did not see anything else.我没有看到其他任何东西。

Can you please confirm whether above stated custom image link is right one or is there any other base image we need to use to build container docker image?您能否确认上述自定义图像链接是否正确,或者我们需要使用其他任何基础图像来构建容器 docker 图像?

No, above link is for custom VM images for Dataproc on GCE clusters.不,上面的链接适用于 GCE 集群上 Dataproc 的自定义 VM 映像。

To create custom container image for Dataproc Serveless for Spark , please follow the guide .要为Dataproc Serveless for Spark创建自定义容器映像,请按照指南进行操作。

As a side note, all Dataproc Serverless-related documentation is on the https://cloud.google.com/dataproc-serverless website.附带说明一下,所有与 Dataproc Serverless 相关的文档都位于https://cloud.google.com/dataproc-serverless网站上。

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 如何使用 dataproc 客户端通过 google dataproc 集群作业为 spark 传递自定义作业 ID - how to pass custom job id via google dataproc cluster job for spark using dataproc client Dataproc pyspark 计费作业总字节数 - Dataproc pyspark job total bytes billed 将 PySpark dataframe 作为数据处理作业上传到 bigquery - Upload the PySpark dataframe to bigquery as a dataproc job Googld cloud dataproc serverless (batch) pyspark 从谷歌云存储 (GCS) 读取镶木地板文件非常慢 - Googld cloud dataproc serverless (batch) pyspark reads parquet file from google cloud storage (GCS) very slow 将 requirements.txt 传递给 Google Cloud Pyspark 批处理作业 - Passing requirements.txt to Google Cloud Pyspark Batch Job 在云 Dataproc 中的 Pyspark 作业上使用 DeltaTable.forPath 时出错 - Error Using DeltaTable.forPath on Pyspark Job in cloud Dataproc 我想在 dataproc 集群上提交一个带有自定义作业 ID 的 spark 作业 - I want to submit a spark job on the dataproc cluster, with custom job id 使用属性文件向 Google Dataproc 提交 Pig 作业时出错 - Error in submitting a pig job to Google Dataproc with properties file 我们如何在 Google Cloud Plarform 中可视化 Dataproc 作业状态? - How can we visualize the Dataproc job status in Google Cloud Plarform? emr-container pyspark 作业无限期运行 - emr-container pyspark job running indefinitely
 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM