繁体   English   中英

如何使用带有sklearn的第三方软件包的python为蜂巢创建udf?

[英]How to create an udf for hive using python with 3rd party package like sklearn?

我知道如何通过transformusing来创建配置单元sklearn ,但是我不能使用sklearn因为并不是配置单元集群中的所有节点都具有sklearn
我的sklearnanaconda2.tar.gz ,我该怎么办?

我最近开始研究这种方法,我觉得问题不是要让所有“ hive节点”上都带有sklearn(如上所述),我觉得这是一个兼容性问题,而不是“ sklearn节点可用性”一。 我认为sklearn尚未(设计)为以并行算法运行,因此可以在短时间内处理大量数据。


作为一种方法,我想做的是通过“ pyhive”将python与“ hive”进行通信,并在该代码中实现必要的sklearn库/调用。 这里的粗略假设是,此“ sklearn-hive-python”代码将在每个节点中运行,并在“ map-reduce”级别处理数据。 我不能说这是正确的解决方案或正确的方法(但是),但这是我经过一段时间搜索后可以得出的结论。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM