簡體   English   中英

Apache Spark處理能力和資格

[英]Apache Spark Processing Capabilites & Eligibility

我是Apache Spark的新手,想知道它是否符合我的特定方案。 就我而言,我正在爬網小的數據集(作為JSON文件到MongoDB)。 這些文件實際上與同一實體相關,但是它們可能具有不同的結構(與其他文件相比,同一集合中的特定JSON可能包含更多或更少的鍵/值對)。 我正在嘗試在這些數據文件上運行機器學習(分類/回歸)算法並從中獲取信息。

考慮到這種情況,您認為Spark有資格通過在集群環境中並行處理來加快處理速度嗎? 還是您認為我應該轉向其他替代方案?

謝謝。

並行處理是當今大數據世界的一種選擇。 考慮到您的情況, Spark絕對是一個不錯的選擇。 Sparkin-memory computation tool ,可與driver-executor scheme 記憶是選擇spark最重要的因素。 你可以看看Apache-spark

由於您的項目與機器學習有關,因此spark有許多用於機器學習的庫mllib-guide

MongoDB也受支持。 您可以查看數據塊用例

我希望這是有幫助的

是的,Apache Spark支持此類用例。 如果需要,您可以直接從JSON文件中讀取。 還支持將MongoDB作為數據源。 但是,最重要的是您應該使用Spark的原因是因為它直接在數據集上支持機器學習算法,並且您可以進行並行處理,容錯,延遲加載等等!

直接從他們的機器學習頁面引用-

其目標是使實用的機器學習可擴展且容易。 在較高級別,它提供了以下工具:

  • ML算法:常見的學習算法,例如分類,回歸,聚類和協作過濾
  • 特征化:特征提取,變換,降維和選擇
  • 管道:用於構建,評估和調整ML管道的工具
  • 持久性:保存和加載算法,模型和管道
  • 實用程序:線性代數,統計信息,數據處理等

查看他們在機器學習上的頁面以了解更多詳細信息-http: //spark.apache.org/docs/latest/ml-guide.html

MongoDB中作為數據源- https://databricks.com/blog/2015/03/20/using-mongodb-with-spark.html直接從一個文件夾中的文件JSON - 如何的JSON文件的目錄加載到Apache的Spark在蟒蛇

此外,它具有Python,R,Scala和Java的API! 選擇您喜歡的任何東西。

暫無
暫無

聲明:本站的技術帖子網頁,遵循CC BY-SA 4.0協議,如果您需要轉載,請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

 
粵ICP備18138465號  © 2020-2024 STACKOOM.COM