![](/img/trans.png)
[英]What are the differences between Dataframe, Dataset, and RDD in Apache Spark?
[英]What is the differences between Apache Spark and Apache Apex?
Apache Apex - 是一个开源的企业级统一流和批处理平台。 它在GE Predix平台中用于物联网。 这两个平台之间的主要区别是什么?
问题
将它与Spark进行比较:Apache Spark实际上是一个批处理。 如果你考虑Spark流(它使用下面的spark),那么它就是微批处理。 相比之下,Apache apex是一个真正的流处理。 从某种意义上说,传入记录不必等待下一个记录进行处理。 记录一经处理即被处理并发送到下一级处理。
目前,正在努力增加对Apache Apex与Apache Samoa,H2O等机器学习库集成的支持。请参阅https://issues.apache.org/jira/browse/SAMOA-49
目前,它支持Java,Scala。
https://www.datatorrent.com/blog/blog-writing-apache-apex-application-in-scala/对于Python,您可以使用Jython进行尝试。 但是,我自己并没有尝试过。 所以,不太确定。
考虑到它们是两种不同的处理引擎,与Spark集成可能不是一个好主意。 但是,Apache apex与机器学习库的集成正在进行中。
如果您有任何其他问题,可以在apache apex用户的邮件列表中发布功能请求: https : //mail-archives.apache.org/mod_mbox/incubator-apex-users/
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.