[英]Apache Spark Processing Capabilites & Eligibility
我是Apache Spark的新手,想知道它是否符合我的特定方案。 就我而言,我正在爬网小的数据集(作为JSON文件到MongoDB)。 这些文件实际上与同一实体相关,但是它们可能具有不同的结构(与其他文件相比,同一集合中的特定JSON可能包含更多或更少的键/值对)。 我正在尝试在这些数据文件上运行机器学习(分类/回归)算法并从中获取信息。
考虑到这种情况,您认为Spark有资格通过在集群环境中并行处理来加快处理速度吗? 还是您认为我应该转向其他替代方案?
谢谢。
并行处理是当今大数据世界的一种选择。 考虑到您的情况, Spark
绝对是一个不错的选择。 Spark
是in-memory computation tool
,可与driver-executor scheme
。 记忆是选择spark
最重要的因素。 你可以看看Apache-spark
由于您的项目与机器学习有关,因此spark
有许多用于机器学习的库mllib-guide
我希望这是有帮助的
是的,Apache Spark支持此类用例。 如果需要,您可以直接从JSON文件中读取。 还支持将MongoDB作为数据源。 但是,最重要的是您应该使用Spark的原因是因为它直接在数据集上支持机器学习算法,并且您可以进行并行处理,容错,延迟加载等等!
直接从他们的机器学习页面引用-
其目标是使实用的机器学习可扩展且容易。 在较高级别,它提供了以下工具:
查看他们在机器学习上的页面以了解更多详细信息-http: //spark.apache.org/docs/latest/ml-guide.html
MongoDB中作为数据源- https://databricks.com/blog/2015/03/20/using-mongodb-with-spark.html直接从一个文件夹中的文件JSON - 如何的JSON文件的目录加载到Apache的Spark在蟒蛇
此外,它具有Python,R,Scala和Java的API! 选择您喜欢的任何东西。
声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.