簡體   English   中英

在python h2o模塊中,如何在使用h2o.import_sql_select()導入數據時指定na_strings?

[英]In python h2o module, how to specify na_strings while using h2o.import_sql_select() to import data?

我正在嘗試使用h2o.import_sql_select()將數據從mysql表導入到H2oFrame中。 我希望將數據庫中的VARCHAR列中的NULL或空值導入到H2oFrame中時可以識別為NA,但它們被視為空字符串文字。 但是,對於數字列,NULL值會自動識別為NA。

這是我的代碼:

select_query = 'SELECT * FROM my_table'
train_data = h2o.import_sql_select("jdbc:mysql://localhost:3306/my_schema", select_query, "username", "password", use_temp_table=False)

train_data['my_string_column'].isna()始終為零,即使來自數據庫的NULL或空值也是如此。

但是,當我將數據轉儲到CSV並使用h2o.import_file('/path/to/file.csv', na_strings=[''])導入它,然后執行train_data['my_string_column'].isna() ,我可以看到由於na_strings參數,空值被正確識別為NA。

在使用h2o.import_sql_select()導入數據時,是否有某種方法可以指定na_strings或其他解決方法來實現預期的行為?

當前沒有實現這種功能。 這僅僅是因為與CSV相反,在CSV和空字符串與NULL之間沒有區別,SQL具有NULL的概念,因此似乎沒有必要使用這種功能。

但是您說的是,對於字符串列,您的H2O框架中沒有任何N / A值,這聽起來像是個錯誤,我將對其進行調查。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM