簡體   English   中英

Julia ML:是否存在用於將數據加載到Flux,Knet,深度學習庫的推薦數據格式

[英]Julia ML: Is there a recommended data format for loading data to Flux, Knet, Deep Learning Libraries

我使用Tensorflow進行深度學習,但是我對Julia for ML的某些功能感興趣。 現在在Tensorflow中,有一個明確的協議緩沖標准-意味着TFRecords格式是將可觀數據集加載到GPU進行模型訓練的最佳方法。 我一直在閱讀Flux,KNET,文檔以及其他論壇帖子,以了解是否對最有效的數據格式有任何特別的建議。 但是我還沒有找到。

我的問題是,Julia ML庫是否有推薦的數據格式以方便培訓? 換句話說,是否有由於性能不佳而應避免使用的清晰數據集格式?

現在,我知道有一個Protobuf.jl庫,因此用戶仍然可以使用協議緩沖區。 我當時正計划使用協議緩沖區,因為那時我可以為Tensorflow和Julia使用相同的數據格式。 但是,我也發現了一篇有趣的Reddit帖子,內容涉及用戶如何不使用協議緩沖區,而只是使用平直的Julia Vectors。

https://www.reddit.com/r/MachineLearning/comments/994dl7/d_hows_julia_language_mit_for_ml/

我發現Julia ML庫很可能與數據存儲格式無關。 這意味着無論以何種格式存儲數據,數據都將被解碼為某種矢量或矩陣格式。 因此,在那種情況下,我可以使用任何格式。 但是只是想確保我不會錯過任何文檔,也不會因為使用錯誤的數據存儲格式而錯過任何有關問題或性能下降的信息。

對於內存使用,只需使用數組和向量。 它們只是帶有一些元數據的連續大塊內存。 真的沒有比這更好的了。

為了序列化到另一個Julia進程,Julia將為您處理並使用stdlib序列化模塊。

對於序列化到磁盤,您應該只使用Serialization.serialize(可能是壓縮的),或者如果您認為可能需要從另一個程序讀取,或者如果您認為在處理完數據之后要更改Julia版本,則可以使用BSON.jl或Feather.jl。

在不久的將來,JLSO.jl將是取代序列化的一個不錯的選擇。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM