簡體   English   中英

使用 TFX 的 MLOps:使用來自 Keras 的序列時如何攝取數據?

[英]MLOps with TFX: How to ingest data when using Sequence from Keras?

我正在使用一個名為DataGenerator的 class ,它返回一個元組(data_array, label_array) ,代碼如下:

from tensorflow.keras.utils import Sequence

class DataGenerator(Sequence):
    """
    path_data: the path of the csv files
    """
...

這個 class 從.csv文件列表中使用,如下圖所示:

在此處輸入圖像描述

每個文件都包含這樣一列:

0.44
0.45
0.42
0.22
0.05
0.05
0.05
0.05
0.11
0.11
0.05
0.05
0.05
0.05
0.05
0.05

但是這些文件非常龐大,每一個都代表着每一個實例的數據。

問題是我不明白如何通過tfx.v1.components.CsvExampleGen攝取數據以在tfx管道內使用它...

是否可以使用tfx攝取數據,還是我應該考慮另一種選擇?

數據攝取包括從原始格式讀取數據並將其格式化為適合 ML 的二進制格式(例如 TFRecord)。 TFX 提供了一個名為ExampleGen的標准組件,它負責從不同的數據源生成訓練示例。

tfx.v1.components.CsvExampleGen組件采用input_base args,它需要一個包含 CSV 文件的外部目錄。 您甚至可以自定義 ExampleGen 的輸入和 output train/eval 拆分比率,如此處所示

希望這可以幫助。 謝謝!

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM