依靠RDD给出不同的结果

Question

我有一个超过7500万行的RDD，当我调用count函数时，我每次都得到一个不同的数字。 我的理解是计数应该给出确切的数字。

编辑

只是为了了解数据，结构是这样的

Userid: 1  
Date: 8/15/2015  
Location: Building 1  
...  
Date 8/1/2015  
Location: Building 5  
...  

Userid: 2  
Date: 7/30/2015  
Location: Building 10 
...
Date: 6/1/2015  
Location: Building 3 
...

分区键： Userid
聚类键： Date ORDER BY DESC

Spark版本：1.2.2
数据来自Cassandra
使用的API是Scala
Spark Cassandra连接器版本1.2.2
我刚从Cassandra读取数据并使用map来获取Userid和Location 。

Answer 1

我使用读一致性级别Local_One并使用Quorum一致性解决了这个问题。 根本问题是我们的一个节点的突变丢弃计数很高。

依靠RDD给出不同的结果

问题描述

1 个解决方案

解决方案1
2 已采纳 2015-08-26 17:59:19

依靠RDD给出不同的结果

问题描述

1 个解决方案

解决方案1 2 已采纳 2015-08-26 17:59:19

解决方案1
2 已采纳 2015-08-26 17:59:19