繁体   English   中英

在python h2o模块中,如何在使用h2o.import_sql_select()导入数据时指定na_strings?

[英]In python h2o module, how to specify na_strings while using h2o.import_sql_select() to import data?

我正在尝试使用h2o.import_sql_select()将数据从mysql表导入到H2oFrame中。 我希望将数据库中的VARCHAR列中的NULL或空值导入到H2oFrame中时可以识别为NA,但它们被视为空字符串文字。 但是,对于数字列,NULL值会自动识别为NA。

这是我的代码:

select_query = 'SELECT * FROM my_table'
train_data = h2o.import_sql_select("jdbc:mysql://localhost:3306/my_schema", select_query, "username", "password", use_temp_table=False)

train_data['my_string_column'].isna()始终为零,即使来自数据库的NULL或空值也是如此。

但是,当我将数据转储到CSV并使用h2o.import_file('/path/to/file.csv', na_strings=[''])导入它,然后执行train_data['my_string_column'].isna() ,我可以看到由于na_strings参数,空值被正确识别为NA。

在使用h2o.import_sql_select()导入数据时,是否有某种方法可以指定na_strings或其他解决方法来实现预期的行为?

当前没有实现这种功能。 这仅仅是因为与CSV相反,在CSV和空字符串与NULL之间没有区别,SQL具有NULL的概念,因此似乎没有必要使用这种功能。

但是您说的是,对于字符串列,您的H2O框架中没有任何N / A值,这听起来像是个错误,我将对其进行调查。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM