繁体   English   中英

在数据流作业中安装 Python 个包

[英]Install Python packages in dataflow job

在我的数据流(光束)工作流程中,我使用来自 Python 的日期时间 package(在 gcp 上使用 jupyter notebook)。 当我使用 pip 安装丢失的包时,一切正常。

现在我想在 gcp 上运行我的转换作为数据流作业。

我总是得到错误“NAME ERROR”,因为日期时间未知(当我使用 Apache beam SDK 用于 Python 时出现此错误)任何人都可以提示我如何将 Python 包添加到数据流作业中吗?

我使用的是 setup.py 文件,但它不起作用。

感谢您的回答,如果我必须安装一些额外的包 fe lxml,这里是我的setup.py文件 fe 的一部分

CUSTOM_COMMANDS = [
    ['sudo', 'apt-get', 'update'],
    ['sudo', 'apt-get', 'install', 'python3-lxml'],
    ['sudo', 'apt', 'install', 'python3-pip'],
    ['pkg', 'install', 'libxml2', 'libxslt']
    ]

我的问题:

  1. 对于标准的 python 包 fe datetime 我不需要 requirements_file?
  2. 如果我必须安装 fe lxml(它不是标准包),我需要 requirements_file 和 setup_file 吗?
  3. 当我必须安装 fe lxml 时安装文件看起来如何,因为我需要一些额外的 linux 包来运行pip install lxml
  4. 在 Dataflow 作业中,容器使用的操作系统是什么? (因为安装附加包的命令不同)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM