[英]MLOps with TFX: How to ingest data when using Sequence from Keras?
我正在使用一個名為DataGenerator
的 class ,它返回一個元組(data_array, label_array)
,代碼如下:
from tensorflow.keras.utils import Sequence
class DataGenerator(Sequence):
"""
path_data: the path of the csv files
"""
...
這個 class 從.csv
文件列表中使用,如下圖所示:
每個文件都包含這樣一列:
0.44
0.45
0.42
0.22
0.05
0.05
0.05
0.05
0.11
0.11
0.05
0.05
0.05
0.05
0.05
0.05
但是這些文件非常龐大,每一個都代表着每一個實例的數據。
問題是我不明白如何通過tfx.v1.components.CsvExampleGen
攝取數據以在tfx
管道內使用它...
是否可以使用tfx
攝取數據,還是我應該考慮另一種選擇?
數據攝取包括從原始格式讀取數據並將其格式化為適合 ML 的二進制格式(例如 TFRecord)。 TFX 提供了一個名為ExampleGen的標准組件,它負責從不同的數據源生成訓練示例。
tfx.v1.components.CsvExampleGen組件采用input_base
args,它需要一個包含 CSV 文件的外部目錄。 您甚至可以自定義 ExampleGen 的輸入和 output train/eval 拆分比率,如此處所示。
希望這可以幫助。 謝謝!
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.