[英]Running python package .egg in Azure Databricks Job
使用构建工具(setuptools)将我的python代码打包为.egg格式。 我想通过azure数据砖中的工作来运行这个包。
我可以通过以下命令在本地机器上执行包。
spark-submit --py-files ./dist/hello-1.0-py3.6.egg hello/pi.py
1)将包复制到DBFS路径中,如下所示,
work-space -> User -> Create -> Library -> Library Source (DBFS) -> Library Type (Python Egg) -> Uploaded
2)在新的集群模式下创建一个任务作为spark-submit的作业
3)为任务配置下面的参数,
["--py-files","dbfs:/FileStore/jars/8c1231610de06d96-hello_1_0_py3_6-70b16.egg","hello/pi.py"]
实际:/ databricks / python / bin / python:无法打开文件'/databricks/driver/hello/hello.py':[Errno 2]没有这样的文件或目录
预期:作业应该成功执行。
我使用它的唯一方法是使用API创建Python作业 。 由于某种原因,UI不支持此功能。
我使用PowerShell来处理API - 这是一个使用对我有用的鸡蛋创建作业的示例:
$Lib = '{"egg":"LOCATION"}'.Replace("LOCATION", "dbfs:$TargetDBFSFolderCode/pipelines.egg")
$ClusterId = "my-cluster-id"
$j = "sample"
$PythonParameters = "pipelines.jobs.cleansed.$j"
$MainScript = "dbfs:" + $TargetDBFSFolderCode + "/main.py"
Add-DatabricksDBFSFile -BearerToken $BearerToken -Region $Region -LocalRootFolder "./bin/tmp" -FilePattern "*.*" -TargetLocation $TargetDBFSFolderCode -Verbose
Add-DatabricksPythonJob -BearerToken $BearerToken -Region $Region -JobName "$j-$Environment" -ClusterId $ClusterId `
-PythonPath $MainScript -PythonParameters $PythonParameters -Libraries $Lib -Verbose
这会将我的main.py和pipelines.egg复制到DBFS,然后创建一个指向它们的作业,传入一个参数。
关于Databricks上的鸡蛋的一个令人讨厌的事情 - 您必须卸载并重新启动群集,然后才能获取您部署的任何新版本。
如果您使用工程集群,这不是问题。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.