繁体 English 中英

Apache Spark处理能力和资格

[英]Apache Spark Processing Capabilites & Eligibility

原文 2017-06-11 06:40:37 2 2 json/ mongodb/ python-3.x/ apache-spark

我是Apache Spark的新手，想知道它是否符合我的特定方案。 就我而言，我正在爬网小的数据集（作为JSON文件到MongoDB）。 这些文件实际上与同一实体相关，但是它们可能具有不同的结构（与其他文件相比，同一集合中的特定JSON可能包含更多或更少的键/值对）。 我正在尝试在这些数据文件上运行机器学习（分类/回归）算法并从中获取信息。

考虑到这种情况，您认为Spark有资格通过在集群环境中并行处理来加快处理速度吗？ 还是您认为我应该转向其他替代方案？

谢谢。

2 个解决方案

并行处理是当今大数据世界的一种选择。 考虑到您的情况， Spark绝对是一个不错的选择。 Spark是in-memory computation tool ，可与driver-executor scheme 。 记忆是选择spark最重要的因素。 你可以看看Apache-spark

由于您的项目与机器学习有关，因此spark有许多用于机器学习的库mllib-guide

MongoDB也受支持。 您可以查看数据块用例

我希望这是有帮助的

是的，Apache Spark支持此类用例。 如果需要，您可以直接从JSON文件中读取。 还支持将MongoDB作为数据源。 但是，最重要的是您应该使用Spark的原因是因为它直接在数据集上支持机器学习算法，并且您可以进行并行处理，容错，延迟加载等等！

直接从他们的机器学习页面引用-

其目标是使实用的机器学习可扩展且容易。 在较高级别，它提供了以下工具：

ML算法：常见的学习算法，例如分类，回归，聚类和协作过滤
特征化：特征提取，变换，降维和选择
管道：用于构建，评估和调整ML管道的工具
持久性：保存和加载算法，模型和管道
实用程序：线性代数，统计信息，数据处理等

查看他们在机器学习上的页面以了解更多详细信息-http: //spark.apache.org/docs/latest/ml-guide.html

MongoDB中作为数据源- https://databricks.com/blog/2015/03/20/using-mongodb-with-spark.html直接从一个文件夹中的文件JSON - 如何的JSON文件的目录加载到Apache的Spark在蟒蛇

此外，它具有Python，R，Scala和Java的API！ 选择您喜欢的任何东西。

多态JSON的SPARK处理

[英]SPARK processing of polymorphic JSON

在Apache CXF中对JSON进行后期处理

[英]Post processing json in Apache cxf

使用Apache Spark过滤JSON（NO SPARK SQL）-Scala

[英]Filtering JSON with apache spark (NO SPARK SQL) - Scala

在Spark中处理JSON-不同文件中的不同架构

[英]Processing JSON in spark - different schemas in different files

Spark处理json数据数百列

[英]Spark processing json data with hundreds of colums

在 Apache Spark 中读取多行 JSON

[英]Read multiline JSON in Apache Spark

使用 Apache Spark 读取 JSON 阵列

[英]Reading JSON Array with Apache Spark

在 Apache Spark 中解析 JSON 时出现奇怪的错误

[英]Weird error while parsing JSON in Apache Spark

提取并分解 apache spark 中嵌入的 json 字段

[英]Extract and explode embedded json fields in apache spark

将 JSON 数据转换为 DataFrame Apache Spark

[英]Convert JSON Data into DataFrame Apache Spark

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 多态JSON的SPARK处理在Apache CXF中对JSON进行后期处理使用Apache Spark过滤JSON（NO SPARK SQL）-Scala 在Spark中处理JSON-不同文件中的不同架构 Spark处理json数据数百列在 Apache Spark 中读取多行 JSON 使用 Apache Spark 读取 JSON 阵列在 Apache Spark 中解析 JSON 时出现奇怪的错误提取并分解 apache spark 中嵌入的 json 字段将 JSON 数据转换为 DataFrame Apache Spark

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM