簡體   English   中英

Apache Spark和Apache Apex有什么區別?

[英]What is the differences between Apache Spark and Apache Apex?

Apache Apex - 是一個開源的企業級統一流和批處理平台。 它在GE Predix平台中用於物聯網。 這兩個平台之間的主要區別是什么?

問題

  1. 從數據科學的角度來看,它與Spark的不同之處是什么?
  2. Apache Apex是否提供Spark MLlib等功能? 如果我們必須在Apache apex上構建可擴展的ML模型,該怎么做以及使用哪種語言?
  3. 數據科學家是否必須學習Java來構建可擴展的ML模型? 它有像pyspark這樣的python API嗎?
  4. Apache Apex可以與Spark集成,我們可以在Apex之上使用Spark MLlib來構建ML模型嗎?
  1. Apache Apex是一個處理流數據的引擎。 嘗試實現相同目標的其他一些是Apache風暴,Apache flink。 Apache Apex的不同因素是:它內置了對容錯,可擴展性和可操作性的支持,這是生產用例中的關鍵考慮因素。

將它與Spark進行比較:Apache Spark實際上是一個批處理。 如果你考慮Spark流(它使用下面的spark),那么它就是微批處理。 相比之下,Apache apex是一個真正的流處理。 從某種意義上說,傳入記錄不必等待下一個記錄進行處理。 記錄一經處理即被處理並發送到下一級處理。

  1. 目前,正在努力增加對Apache Apex與Apache Samoa,H2O等機器學習庫集成的支持。請參閱https://issues.apache.org/jira/browse/SAMOA-49

  2. 目前,它支持Java,Scala。
    https://www.datatorrent.com/blog/blog-writing-apache-apex-application-in-scala/對於Python,您可以使用Jython進行嘗試。 但是,我自己並沒有嘗試過。 所以,不太確定。

  3. 考慮到它們是兩種不同的處理引擎,與Spark集成可能不是一個好主意。 但是,Apache apex與機器學習庫的集成正在進行中。

如果您有任何其他問題,可以在apache apex用戶的郵件列表中發布功能請求: https//mail-archives.apache.org/mod_mbox/incubator-apex-users/

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM