[英]How to create an udf for hive using python with 3rd party package like sklearn?
我知道如何通过transform
和using
来创建配置单元sklearn
,但是我不能使用sklearn
因为并不是配置单元集群中的所有节点都具有sklearn
。
我的sklearn
有anaconda2.tar.gz
,我该怎么办?
我最近开始研究这种方法,我觉得问题不是要让所有“ hive节点”上都带有sklearn(如上所述),我觉得这是一个兼容性问题,而不是“ sklearn节点可用性”一。 我认为sklearn尚未(设计)为以并行算法运行,因此可以在短时间内处理大量数据。
作为一种方法,我想做的是通过“ pyhive”将python与“ hive”进行通信,并在该代码中实现必要的sklearn库/调用。 这里的粗略假设是,此“ sklearn-hive-python”代码将在每个节点中运行,并在“ map-reduce”级别处理数据。 我不能说这是正确的解决方案或正确的方法(但是),但这是我经过一段时间搜索后可以得出的结论。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.