繁体   English   中英

如何使用neo4j和gremlin处理大型数据集?

[英]how to handle large dataset using neo4j and gremlin?

我有大约8800万个节点和2亿条边。 我正在使用Neo4j Db。 我正在使用Gremlin使用批处理图。 因此,建议使用gremlin REPL为此数据集使用gremlin查询。 我的意思是避免超时或堆相关的问题。

当前,我们的范围是不使用faunus api作为hadoop map.reduce结构。

我可以使用带有gremlin的简单Neo4j Db处理此问题吗? 有其他选择或解决方案吗?

我认为Marko / Peter在gremlin用户的邮件列表上都给出了很好的答案:

https://groups.google.com/forum/#!topic/gremlin-users/w3xM4YJTA2I

我不确定我说的比他们说的要多得多,但是我会用自己的话再说一遍。 答案很大程度上取决于您打算对图形进行处理的性质以及图形本身的结构。 如果您的工作量是很多本地遍历(例如,从某个顶点开始并从那里遍历),并且不希望有太多的超节点,那么Gremlin和Neo4j应该做得很好。 给它很多内存,做一些neo4j特定的调整 ,您应该会很高兴。 另一方面,如果您的遍历本质上更具全局性(即,它们以gV或gE开头),而您必须触摸整个图形来进行计算,那么您会感到不满意。 迭代数以亿计的东西需要很长时间。

最终,您必须了解所面临的问题,用例,图形结构以及可用的图形数据库的优势/劣势,才能决定如何处理该尺寸的图形。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM