[英]How to access Spark DataFrame data in GPU from ML Libraries such as PyTorch or Tensorflow
目前我正在研究 Apache Spark 3.0 與 Rapids GPU 加速的使用。 在官方spark-rapids
文檔中,我遇到了 這個頁面,其中指出:
在某些情況下,您可能希望訪問 GPU 上的原始數據,最好不要復制它。 一個用例是在進行特征提取后將數據導出到 ML 框架。
對我來說,這聽起來好像可以使 GPU 上已經可用的數據從某些上游 Spark ETL 過程直接可用於 Tensorflow 或 PyTorch 等框架。 如果是這種情況,我如何從這些框架中訪問數據? 如果我在這里誤解了某些東西,那么這句話到底指的是什么?
您引用的鏈接實際上只允許您訪問仍在 GPU 上的數據,但在另一個框架中使用該數據,如 Tensorflow 或 PyTorch 並不是那么簡單。
TL;博士; 除非您有明確設置的庫以使用 RAPIDS 加速器,否則您可能希望使用 RAPIDS 運行 ETL,然后保存它,並啟動一個新作業以使用該數據訓練您的模型。
您仍然需要解決許多問題。 我們已經在XGBoost的情況下處理了這些問題,但我們還沒有嘗試解決 Tensorflow 或 PyTorch 的問題。
大問題是
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.