[英]In python h2o module, how to specify na_strings while using h2o.import_sql_select() to import data?
我正在嘗試使用h2o.import_sql_select()
將數據從mysql表導入到H2oFrame中。 我希望將數據庫中的VARCHAR列中的NULL或空值導入到H2oFrame中時可以識別為NA,但它們被視為空字符串文字。 但是,對於數字列,NULL值會自動識別為NA。
這是我的代碼:
select_query = 'SELECT * FROM my_table'
train_data = h2o.import_sql_select("jdbc:mysql://localhost:3306/my_schema", select_query, "username", "password", use_temp_table=False)
train_data['my_string_column'].isna()
始終為零,即使來自數據庫的NULL或空值也是如此。
但是,當我將數據轉儲到CSV並使用h2o.import_file('/path/to/file.csv', na_strings=[''])
導入它,然后執行train_data['my_string_column'].isna()
,我可以看到由於na_strings
參數,空值被正確識別為NA。
在使用h2o.import_sql_select()
導入數據時,是否有某種方法可以指定na_strings
或其他解決方法來實現預期的行為?
當前沒有實現這種功能。 這僅僅是因為與CSV相反,在CSV和空字符串與NULL之間沒有區別,SQL具有NULL的概念,因此似乎沒有必要使用這種功能。
但是您說的是,對於字符串列,您的H2O框架中沒有任何N / A值,這聽起來像是個錯誤,我將對其進行調查。
聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.