簡體   English   中英

在數據流作業中安裝 Python 個包

[英]Install Python packages in dataflow job

在我的數據流(光束)工作流程中,我使用來自 Python 的日期時間 package(在 gcp 上使用 jupyter notebook)。 當我使用 pip 安裝丟失的包時,一切正常。

現在我想在 gcp 上運行我的轉換作為數據流作業。

我總是得到錯誤“NAME ERROR”,因為日期時間未知(當我使用 Apache beam SDK 用於 Python 時出現此錯誤)任何人都可以提示我如何將 Python 包添加到數據流作業中嗎?

我使用的是 setup.py 文件,但它不起作用。

感謝您的回答,如果我必須安裝一些額外的包 fe lxml,這里是我的setup.py文件 fe 的一部分

CUSTOM_COMMANDS = [
    ['sudo', 'apt-get', 'update'],
    ['sudo', 'apt-get', 'install', 'python3-lxml'],
    ['sudo', 'apt', 'install', 'python3-pip'],
    ['pkg', 'install', 'libxml2', 'libxslt']
    ]

我的問題:

  1. 對於標准的 python 包 fe datetime 我不需要 requirements_file?
  2. 如果我必須安裝 fe lxml(它不是標准包),我需要 requirements_file 和 setup_file 嗎?
  3. 當我必須安裝 fe lxml 時安裝文件看起來如何,因為我需要一些額外的 linux 包來運行pip install lxml
  4. 在 Dataflow 作業中,容器使用的操作系統是什么? (因為安裝附加包的命令不同)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM