簡體   English   中英

有沒有有效的方法將Pandas DataFrame轉換為H2O Frame?

[英]Is there efficient way to convert Pandas DataFrame to H2O Frame?

我有一個Pandas數據框,我需要將其轉換為H2O框。 我使用以下代碼-

碼:

# Convert pandas dataframe to H2O frame
start_time = time.time()
input_data_matrix = h2o.H2OFrame(input_df)
logger.debug("3. Time taken to convert H2O Frame- " + str(time.time() - start_time))

輸出:

2019-02-05 04:38:55,238記錄器調試3.轉換H2O框架所需的時間-9320.119945764542

數據幀(即input_df )大小為183K x 435,沒有空值或NaN值。

這大約需要2個小時。 有沒有更好的方法來執行此操作?

  1. 將熊貓數據框保存到csv文件。 (當然,如果您首先是從csv文件加載的,請跳過此步驟,當然,還沒有對它進行任何數據處理。)

  2. 將該csv文件放在h2o服務器可以看到的位置。 (如果您正在同一台計算機上運行客戶端和服務器,則已經是這種情況。)

  3. 使用h2o.import_file() (優先於h2o.upload_file()h2o.H2OFrame()

h2o.import_file()是將數據獲取到H2O的最快方法,但是文件必須對服務器可見。 在處理遠程集群時,這可能意味着將其上傳到該服務器文件系統,或將其放置在Web服務器,HDFS集群或AWS S3等上。

h2o.upload_file()較慢的原因是它將對客戶端到服務器的數據進行HTTP POST,而h2o.H2OFrame()則較慢,因為它將熊貓數據導出到臨時csv文件,然后使用h2o.upload_file() ,然后刪除臨時文件。)

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM