簡體 English 中英

Apache Spark處理能力和資格

[英]Apache Spark Processing Capabilites & Eligibility

原文 2017-06-11 06:40:37 3 2 json/ mongodb/ python-3.x/ apache-spark

我是Apache Spark的新手，想知道它是否符合我的特定方案。 就我而言，我正在爬網小的數據集（作為JSON文件到MongoDB）。 這些文件實際上與同一實體相關，但是它們可能具有不同的結構（與其他文件相比，同一集合中的特定JSON可能包含更多或更少的鍵/值對）。 我正在嘗試在這些數據文件上運行機器學習（分類/回歸）算法並從中獲取信息。

考慮到這種情況，您認為Spark有資格通過在集群環境中並行處理來加快處理速度嗎？ 還是您認為我應該轉向其他替代方案？

謝謝。

2 個解決方案

並行處理是當今大數據世界的一種選擇。 考慮到您的情況， Spark絕對是一個不錯的選擇。 Spark是in-memory computation tool ，可與driver-executor scheme 。 記憶是選擇spark最重要的因素。 你可以看看Apache-spark

由於您的項目與機器學習有關，因此spark有許多用於機器學習的庫mllib-guide

MongoDB也受支持。 您可以查看數據塊用例

我希望這是有幫助的

是的，Apache Spark支持此類用例。 如果需要，您可以直接從JSON文件中讀取。 還支持將MongoDB作為數據源。 但是，最重要的是您應該使用Spark的原因是因為它直接在數據集上支持機器學習算法，並且您可以進行並行處理，容錯，延遲加載等等！

直接從他們的機器學習頁面引用-

其目標是使實用的機器學習可擴展且容易。 在較高級別，它提供了以下工具：

ML算法：常見的學習算法，例如分類，回歸，聚類和協作過濾
特征化：特征提取，變換，降維和選擇
管道：用於構建，評估和調整ML管道的工具
持久性：保存和加載算法，模型和管道
實用程序：線性代數，統計信息，數據處理等

查看他們在機器學習上的頁面以了解更多詳細信息-http: //spark.apache.org/docs/latest/ml-guide.html

MongoDB中作為數據源- https://databricks.com/blog/2015/03/20/using-mongodb-with-spark.html直接從一個文件夾中的文件JSON - 如何的JSON文件的目錄加載到Apache的Spark在蟒蛇

此外，它具有Python，R，Scala和Java的API！ 選擇您喜歡的任何東西。

多態JSON的SPARK處理

[英]SPARK processing of polymorphic JSON

在Apache CXF中對JSON進行后期處理

[英]Post processing json in Apache cxf

使用Apache Spark過濾JSON（NO SPARK SQL）-Scala

[英]Filtering JSON with apache spark (NO SPARK SQL) - Scala

在Spark中處理JSON-不同文件中的不同架構

[英]Processing JSON in spark - different schemas in different files

Spark處理json數據數百列

[英]Spark processing json data with hundreds of colums

在 Apache Spark 中讀取多行 JSON

[英]Read multiline JSON in Apache Spark

使用 Apache Spark 讀取 JSON 陣列

[英]Reading JSON Array with Apache Spark

在 Apache Spark 中解析 JSON 時出現奇怪的錯誤

[英]Weird error while parsing JSON in Apache Spark

提取並分解 apache spark 中嵌入的 json 字段

[英]Extract and explode embedded json fields in apache spark

將 JSON 數據轉換為 DataFrame Apache Spark

[英]Convert JSON Data into DataFrame Apache Spark

暫無

暫無

聲明:本站的技術帖子網頁，遵循CC BY-SA 4.0協議，如果您需要轉載，請注明本站網址或者原文地址。任何問題請咨詢:yoyou2525@163.com.

相關問題 多態JSON的SPARK處理在Apache CXF中對JSON進行后期處理使用Apache Spark過濾JSON（NO SPARK SQL）-Scala 在Spark中處理JSON-不同文件中的不同架構 Spark處理json數據數百列在 Apache Spark 中讀取多行 JSON 使用 Apache Spark 讀取 JSON 陣列在 Apache Spark 中解析 JSON 時出現奇怪的錯誤提取並分解 apache spark 中嵌入的 json 字段將 JSON 數據轉換為 DataFrame Apache Spark

相關標簽

粵ICP備18138465號 © 2020-2024 STACKOOM.COM